数据迷雾:洞察数据的价值与内涵
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章
科技进步中的数据变革

一位谷歌高管曾在2018年10月休斯敦举行的会议上发表讲话指出,2016年至2018年收集到的数据量已经大于此前人类历史上产生的所有数据之和[1]

可以说,数据就是企业的生命。通过分析数据,企业能发掘客户、削减成本、制订计划、掌握主动权并寻求最优策略。

但是数据分析造成计算机瘫痪的风险同样存在,尤其当数据量与我们掌握的计算能力相比过于庞大冗杂时。

如果单单靠增加处理器的数量而非提高处理器的质量来解决问题,随着数据量无限增长,分析数据的成本将成问题。换句话说,为了解决数据量增长而购买处理器的费用将呈指数增长,这并非耸人听闻。

摩尔定律的终结

数据趋于加速增长的原因之一,是数据处理和储存相关硬件设备成本的大幅削减。但这一趋势,尤其是关于数据处理成本的部分,可能已经无法延续。

这是因为,计算能力面临着一些隐性限制。许多技术工作者都会谈到这一近在眼前的风险因素,即摩尔定律的极限。摩尔定律(Moore’s Law)以英特尔创始人戈登·摩尔的名字命名,认为一定周期内处理器计算能力将提高一倍,而成本减半[2]

若这一理论正确,就意味着计算机的处理能力将愈加强大且更为廉价。图2-1展示了摩尔定律中计算机处理能力随时间的发展。

图2-1 摩尔定律中计算机处理能力随时间的发展

来源:雷·库兹韦尔(Ray Kurzwell),德丰杰基金(DFJ),罗德尼·布鲁克斯(Rodney Brooks)于远望经济有限责任公司。

但是摩尔定律正在失效[3]。随着计算能力提升,成本却不再降低。

实际上,目前唯一的应对数据增长的方案就是使用“更多处理器”。而随着数据的加速增长,成本的问题将会更加严重。毕竟如果您想对收集到的数据进行分析,所用的处理器数量就必须与数据规模相匹配。

这一挑战将变得更加严峻,因为我们正步入物联网时代(internet of things, IoT),收集和存储的数据量正呈指数增长。

目前,主要由手机、电脑和平板连入互联网。它们既是主要的联网设备,也是主要的数据来源和任务处理装置。

而在未来,传感器成本的下降以及提升消费者便利性的需求将引导我们进入物联网的时代:各种事物都将连接到互联网上。这可能包括您的汽车、冰箱、储物柜等在内的各种物件,而不仅仅是手机、个人电脑和平板电脑。

这些设备都能进行交互,执行命令并生成数据。当所有设备实现联网,其带来新的可挖掘、可分析的数据量将令人眼花缭乱。

对于未来物联网时代的数据规模,现有的数据收集分析将显得力不从心。

目前就处理能力而言,在量子计算等技术没有取得突破性进展的前提下,唯一可行的提升方式就是购买处理器,而无法制造出更便宜或更好的处理器。在技术圈中,这被称为“蛮力算法”(brute force)[4]。技术专家、科学家和未来主义者采用这一说法,是因为购买更多的处理器并不具有创造性。

这是通过金钱而不是科学创新解决的问题,只是粗暴地拿出更多的处理器,而不是推动计算处理能力的进步。

不一样的数据挑战

物联网设备无疑将会提供更多的数据访问。在硬件革新方面,数据处理能力增强的处理器价格将变得昂贵还是便宜,取决于通用量子计算技术能否迅速实现商业化。

但是在数据分析领域情况有所不同。

只要您愿意,您可以随心所欲地在硬件上投入大量资金,但这并不是数据分析面临的最大挑战。面对疯狂增长的数据,金钱和处理器的增加不足以解决问题,它无助于确保分析结果的有效性,也无法解决数据分析实际面临的最大挑战。