统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

2.4 讨论:统计学与数据科学的不同之处

我通过经典的显著性检验,来评估我的假设的正确性:

H0:数据科学和统计学是等同的(p=p0

H1:数据科学和统计学不一样(p≠p0

我用单样本检验对这个小样本的比例进行测试[1]。在这个零假设下,p0=50%,计算p值的公式是2*PROBBNML(0.50,19,8)。

p值是0.6476,比α值(α=0.05)大。所以这个零假设没有被否定,得出的结论是数据科学等同于统计学。

对统计检验方法的这种使用不能提供有说服力的信息,所以我对42.11%这个数值做了一些数据挖掘工作。隐藏在这个数值背后的是:

1)六位统计学家和他们的学术继承人认为数据科学就是统计学,他们是吴建福、威廉·S.克利夫兰、迈克尔·德里斯科尔、哈尔·瓦里安、内森和奈特·希尔福。

2)一位统计编年史专家认为数据科学是统计学,他是肯尼斯·库克耶。

3)一家学术机构认为数据科学是统计学,即纽约大学CDS中心。

4)其他11项引文认为数据科学不是统计学,其中包括:

a.7个商业机构和个人——IFIP、美国科学委员会、麦克·路凯茨、吉尔·普莱斯、IJDSA、Kaggle和KDN。

b.4家学术机构——哥伦比亚大学、数据学与数据科学研究中心、JISC和加州大学伯克利分校(UC Berkeley)。

我现在澄清一下之前说过的对收集信息的停止检索规则:当检索不到有关这项研究的有用信息时停止。我观察到统计学家和一位统计编年史专家指出了统计学和数据科学是相同的。其他引文给出了数据科学的各种含义,认为它们是不同的学科。继续收集其他信息,我无法得出一个完全不同的答案。

分析:统计学和数据科学有区别吗

所有统计学家都同意数据科学就是统计学,这并不令人感到惊讶。

统计学家是统计学界的核心人群,肯定知道在他们这个领域内外发生了什么变化。尽管无法解释为何会出现这个趋势,但希尔福的说法——数据科学是统计学的一个性感标签——可能是统计学伪装的答案。除了他对用数据科学提高统计学家的地位之外,我没有发现这个说法来自何处。

对于培训统计学家的学术机构来说,他们的说法是认为数据科学等同于统计学。尽管如此,五家里有四家学术机构宣称数据科学与统计学不同。纽约大学CDS中心是这个学术圈子的异类。我只能得出结论:那四家高等教育机构采纳了令人不齿的营销套路,通过炒作希尔福的说法来引起关注,以提高注册率和收入。

这项检索工作的最大发现是:所有11个表明统计学和数据科学不相似的引文都有一个共同点:空洞无物。总体上讲,这11条引文是对数据科学的描述(不是定义),是相互矛盾的观点的大杂烩。这个发现表明,网络上的大数据引发的变化造成了基本统计学的变化的不确定状态。应该有一个新术语反映这种变化。我认为这些变化要么不够明显,要么是“他们眼中的时代还没有发生改变”。

[1] 这项检验用于样本量小的情况。此时应用大样本检验的那些方法得出的p值和真实p值相差太大。