打通企业数字化价值链(抗“疫”复工特刊)(《哈佛商业评论》微管理系列)(哈佛商业评论)
上QQ阅读APP看书,第一时间看更新

二、数据是如何分析的?

即使数据得到了准确和良好的维护,数据分析模型的质量也会有很大差异。一般而言,各种数据分析模型是通过开源平台(如GitHub)组合在一起,并要为特定的分析任务进行重新的组合部署。但是,过不了多久,人们就忘记该模型究竟来自何处,也不再关心它究竟是如何评估特定的数据集合的了。


类似于这样的失误要比你所能想象到的更为常见,并且有可能造成严重的损失。我们可以回顾一下如下案例:曾经有两位著名的经济学家发表了一份工作报告,警告说美国债务即将面临一个关键的节点。他们的工作引发了一场政治风暴,但事实证明,他们犯了一个简单的Excel错误,导致他们夸大了债务对GDP的影响。这就是对数据处理方式的失误造成的。


随着数据处理模型变得越来越复杂,并纳入了更多的数据来源,我们也越来越能看到,在数据模型的训练上不断出现更为严重的问题。最常见的错误之一是过度拟合,这大体意味着,用来创建模型的变量越多,模型本身就越难变得普遍有效。而在某些情况下,过量的数据会导致数据泄漏,在数据泄露中,训练数据和测试数据搅和在一起了。


这些类型的错误甚至会困扰最为先进的公司。对此我们仅仅举出两个最为突出的例子就足够了:亚马逊和谷歌,最近与模型偏见有关的丑闻被高度曝光了。当我们处理数据时,我们需要不断地向我们的模型提出难题:它们适合于我们的使用目的吗?它们是否考虑到了正确的因素?模型所输出的数据是否真实地反映现实世界中发生的事情?