统计学视角下的金融高频数据挖掘理论与方法研究
上QQ阅读APP看书,第一时间看更新

第五节 本章小结

统计学和数据挖掘是研究数据的学问,看不到数据,一切也都是空谈。第一,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所以数据挖掘很大程度上是非参数的 (nonparametric)、探索性的 (ex-ploratory) 数据分析;而经典的统计推断理论是参数的 (parametric)、验证性的 (confirmtory) 数据分析,是在很多预设假定下进行讨论的,所以它更倾向于演绎 (deductive reasoning; Aristotelian approach to truth)。但与数学重逻辑演绎相比,统计学又稍逊一筹,因其本质属性既不是数理逻辑,也不是软件程序,而是对数据的阅读。与形式逻辑强调概念世界中的严格推演不同,统计强调的是在显著意义上对数据的归纳和总结 (Platonic approach to truth)。第二,经典的统计分析基于渐进理论,而数据挖掘更像是基于统计学习理论针对具体案例的预测科学 (统计学是如何看待过去的学问),但“特定的”、“具体的”并不涉及个人隐私,因为数据挖掘得到的规则是统计意义上的。第三,通常挖掘到这种潜在的、人们事先不知道的知识非常识,而是新奇的,即数据挖掘的目的是要找到“例外”,但挖掘过程并没有结束,因为这只是一个假设,尚需验证,就好像参数估计之后的假设检验一样。第四,数据挖掘的流程与统计分析类似:

数据准备→数据挖掘→结果的解释与评价

数据准备→统计分析→结果的解释与评价

之所以称之为数据挖掘,很大程度上是因为数据挖掘的对象是海量数据,而不是因为所使用的工具。海量数据加一般传统的统计方法,要比小容量样本加数据挖掘工具来得更“数据挖掘”。

如何处理浩繁的数据,挖掘大数据中的大价值?统计学家的逻辑是近似或抽样 (用样本来替代总体),或者数据压缩 (包括样本、变量压缩)。但是复杂世界的数据规模不仅样本容量 (n) 上有快速的增长,而且维数(p) 也多到超出传统多元统计分析的范畴 (高维数据分析),还有所谓的高频数据 (t)、文本数据 (非结构) 等,特别是非结构数据和数据社会化 (Socialization of Data),这构成了大数据 (big data) 的真正含义。这些大规模数据首先要考虑如何存储 (现在—未来) 和传输 (A—B),然后是云计算的并行处理、专业化 (业务外包)、虚拟化 (租用计算能力)等特征使其在分析这类数据上有很大的发挥空间。在大规模数据时代,“云计算是不得不发展出来的技术”。