统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

2.2 背景

statistik(统计学的德文写法)可能是由德国政治科学家戈特弗里德·阿什瓦尔(Gottfried Achenwall)于1749提出和推广的[1]。直到1770年,statistik的含义一直是“处理来自国家或社会的数据的科学”[2]。权威看法是,阿什瓦尔的这个说法等同于早期的统计学。

我倾向于认为阿什瓦尔发明了数据科学这个原始叫法。当我把科学看作一个需要理论和方法知识的有特定内容的分支时,阿什瓦尔所说的数据科学,实际上就是统计学的某个分支的定义。就阿什瓦尔的说法而言,我把数据科学/统计学定义为以下活动:

1)收集数据。

2)在问题范围内分析数据。

3)用图形解释发现。

4)得出结论。

根据今天流行的数据科学,18世纪70年代的定义是非常特殊的。为了将这个重要概念更新,我结合了互联网的影响。

互联网上的大数据不仅包括数字,还包括文字、声音、图像等。大数据需要计算机,而大数据也助推了高性能统计程序的诞生和发展。所以,我提出一个数据科学/统计学新定义,它包括以下4步骤:

1)收集数据——过去是小数据,现在是大数据——包括数字(传统结构的)、文字(非结构化的),空间的、语音的、图像的等。

2)对推理和建模进行分析,并减少问题中的不确定性:大数据相关的工作用到了需要大量计算机的统计计算。

3)用图形和可视化方法解释结果(例如观点、模式),在一个二维平面上持续改善k维结果。

4)得出结论。

本章要讲的是,新出现的数据科学和现代统计学是一回事。相应地,我会从数据收集——从近代18世纪70年代的数据科学/统计学到两个世纪后今天的数据科学定义——早期的文字、事件和重要人物入手,做一个详细的对比。

至于我这样做的原因,答案可能会和阿什瓦尔的数据科学有同样久远的历史。对比就是在“A和B”之间做匹配,以确定两个中哪一个更好。如果不考虑社会环境,对比可能意味着比如毒品制造商获得货币收益,缓解病痛,或者拯救生命。如果考虑社会环境,比如在当前情况下,对比聚焦于个体获得准确的自我评估的动机[3]。我想知道数据科学家这个说法是否意味着他们比我掌握了更多的技能,再就是一个无关紧要的想法,是否我在尝试用一个虚假的缺乏确切含义的流行语来重新包装自己。

基于这些想法,我研读了文献,查找了有关数据科学的重要内容(比如引用、参考文献、评述、致谢、贡献和各种说法),筛除了其中缺乏证明的内容。例如,我剔除了一些以数据科学为题的会议论文,这些文章的摘要里甚至很少提到这个术语,或者出现了错误表述。这类文章反映了一种借助最新热词提高研讨会关注度的市场行为。颇具讽刺意味的是,这些热点标题并没有产生多大影响力,因为它们在不断重复之后变成了废话。

在我介绍这些文献内容之前,简要考虑了一下当前的流行潮流,以及它们是如何兴起的。一个流行说法是“看似非理性的模仿行为”[4],这是在了解了一个人、一个地方或一件事,以及一个观点、概念、思想或建议之后的自发行动。流行的出现和消失都非常快。至于是谁点燃了这把火,有时候是可以知道的。比如,20世纪60年代,摇滚乐团披头士就是火种,引发了披头发型的流行。20世纪80年代的卷心菜布娃娃是历史上最流行的玩具之一,没有人知道它是如何流行的。有时候小火星“没有明显的外部刺激”[4]。相反,潮流是具有持久力的流行。无论是流行还是潮流,都存在一个问题:谁发动了它,谁推广了它?

这一章的目标是超越阿什瓦尔在20世纪70年代的数据科学探索,抵达我接受的这个意外的说法,即我在数据科学/统计学现代定义中提出的四步流程,以及现在流行的2016年数据科学的术语。具体地讲,我想确定数据科学和统计学是不是一回事。在这个过程中,我要找到发起和推广它的人是谁。