163 不过是一次对世界的宣告而已(第1/7页)
作品:《科技之锤》对于宁为来说并不认为席卷而来的绯闻是件很困惑的事情。恰好相反,对于数论中的研究才是最让他头疼的。
之所以他一直认为自己只是有了阶段性的进展,因为相对于大数据的判断跟分析来说,解决其移动跟交换能力只是最基础的部分。
这涉及到更多基本的问题,比如数据在数学上的精确定义,并且要赋予它数学上的表达,比如其数域类型的数字跟其物理纲量。同时数据的抽象表达跟其关系模型也需要重建。
比如如果把大数据定义为量和质、多样性、存储、检索、提取、计算、语义认知、维护和处理诸方面有别于无类型离散数字的超大规模异构类型化量所构成的一个超结构。那么在构建整个理论之前就需要对这个超结构有严格的定义,才能用数学语言去对整个大数据系统进行描述。
这其中蕴藏的难度是可以想象的。
大数据的基本特征是非结构化、异构、单调增长、非描述性、混合/模糊语义,且一致性随时间衰减或熵随时间增加,这些固有的复杂性和极大规模的多维超结构对象,极难定义。
罗伯特教授的论文让他想到了另一种可能。
既然从数学的角度来定义太过困难,为什么不能从机器的视角去解决这个底层难题。
如果代入机器的视角,宁为总结出了通过类别跟来源定义数据的结构
观察数据,可以包括事实,状态,跟行为;针对事实可以划分为特征、序数、基数、计数、数量;状态可以划分为存在形式、构造、状态变化;行为则可以分解为互动、规范、周期、分布、频率。
推断数据,则包含了类比、关系、测量、语义、数学、统计跟复合。
其中类比包含相似、比较、等价类;关系包含了关联、因果、映射、序列、并发;
测量包含量化、限定、缩放、标准化、加权、分类;
语义包含物理、经验、抽象、数学、规则、性质;
数学包含线性、非线性、多项式、解析、微分、积分、细化、函数系统;
统计包含概率、范数、偏差、分布、条件、随机过程;
复合则包含插值、外推、指数、幂函数、阶乘、笛卡尔积、搜索、排序、组合、排列、系统融合。
除此之外还有工程数据,社会数据等等……
灵感的发散花费了宁为太多的精力跟时间,他把自己关在了房间了整整两天时间,甚至没有时间去关注所谓绯闻带给他