上QQ阅读APP看书,第一时间看更新
1.5 再议数据规模
维克托·迈尔-舍恩伯格提出,大数据意味着更多、更杂和更好。大数据越“大”越好吗?
但是我们也应注意到,大数据“美”,却不一定“大”。格里格·孟德尔仅靠一本笔记本的数据就发现了基因遗传的秘密。这提醒我们,重要的是收集合适的数据,而不是随便收集。
2010年,我们为了辅助公司每月营业出账收入的检查,分析历年的月/日出账收入,月月、日日和月日数据关系,挖掘数据波动规律。最终,仅使用已存储的13个月总出账收入,设计了极其简单的算法,实现了每月收入的预测,预测偏差绝对值小于1%。
那么,大数据的评价标准到底是什么呢?社交网络分析公司的数据分析首席科学家Michael Wu说:“随着数据规模的不断增加,你能够从大数据汲取出来的信息反而会逐渐减少。”也就是说,大数据的评价标准在于在数据规模和数据价值中找到一个恰当的折衷点。数据量一旦超过了某个点,增加数据所获得的回报就会减少,因此,收集更多数据纯属浪费时间。