1.1.3 由小数据到大数据的思路转变_大数据在智能物流中的应用-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1.3　由小数据到大数据的思路转变

1.由分析随机样本转变为分析全体数据

在小数据时代，由于记录、存储和分析数据的工具不够发达、完善，只能收集少量数据进行分析，信息处理能力受到一定的限制，因此采用随机抽样分析方法进行数据分析，抽样的目的是用最少的数据获得最多的信息。

美国在抵抗流感中对大数据技术的应用就是典型案例。美国流感趋势预测不依赖对随机样本的分析，而是分析了美国几十亿条互联网检索记录。分析整个数据库，而不是分析一些样本，能够提高微观层面分析的准确性，甚至能够推测出某个城市的流感状况。因此，在大数据时代，需要放弃随机抽样分析方法，而选择收集全面、完整的数据。这需要足够的数据处理和存储能力，也需要最先进的分析技术。

随着数据分析技术水平的不断提高，可处理的数据量大大增加，对事物理解的角度将比以前更宽广、更全面。

2.由追求数据精确性转变为接受数据混杂性

过度注重精确性是小数据时代的特点。小数据时代的数据分析，更多的是精确的样本、深度的数据挖掘，不符合规格的样本会被过滤掉，然后深度挖掘数据字段间的关系，得出精确无比的结果。

在大数据时代，只有5%的数据是传统数据库中的结构化数据，95%的数据是混合杂乱的非结构化数据，因此分析出的结果不会很精确。大数据更多通过对各种数据分析得出某种趋势，这种趋势不强求过于精确。因此，只有接受数据的不精确性和完整性，才能发现事物的真相。

3.小数据到大数据的一般处理过程

1）数据的采集

大数据采集多个“小数据”，通过数据库进行查询和处理。数据抽取将分布于异构数据源中的数据抽取进行清洗、转换、集成，并联机分析处理使之成为数据挖掘的基础。

在大数据采集过程中，其主要特点和挑战是并发数高，因为有可能同时有成千上万的用户在进行访问和操作。例如，火车票售票网站和淘宝的并发访问量在峰值时可达上百万人次，需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片需要深入思考和设计。

2）数据导入与预处理

数据导入与预处理过程通常会用到自然语言处理（Natural Language Processing，NLP）和人工智能（Artificial Intelligence，AI）等技术。

数据导入与预处理过程的特点和挑战主要是导入的数据量大，每秒的数据导入量通常会达到百兆字节，甚至千兆字节。

3）数据统计与分析

数据统计与分析主要利用分布式数据库或分布式计算集群，对存储其内的海量数据进行分析和分类汇总等，以满足大多数常见的分析需求。

数据统计与分析的主要特点和挑战是数据分析涉及的数据量大，对系统资源尤其是I/O的占用率较高。

4）数据挖掘

数据挖掘一般没有预先设定好的主题，主要在现有数据上进行基于各种算法的计算，从而起到预测的效果，进而满足一些高级别数据分析的需求。

数据挖掘过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量均很大，常用的数据挖掘算法以单线程为主。

本周热推：

经济学夜话：微观篇 “创青春”创课十讲一本不正经的经济学一看就懂的投资常识全图解数字化的力量