1.1.3 由小数据到大数据的思路转变
1.由分析随机样本转变为分析全体数据
在小数据时代,由于记录、存储和分析数据的工具不够发达、完善,只能收集少量数据进行分析,信息处理能力受到一定的限制,因此采用随机抽样分析方法进行数据分析,抽样的目的是用最少的数据获得最多的信息。
美国在抵抗流感中对大数据技术的应用就是典型案例。美国流感趋势预测不依赖对随机样本的分析,而是分析了美国几十亿条互联网检索记录。分析整个数据库,而不是分析一些样本,能够提高微观层面分析的准确性,甚至能够推测出某个城市的流感状况。因此,在大数据时代,需要放弃随机抽样分析方法,而选择收集全面、完整的数据。这需要足够的数据处理和存储能力,也需要最先进的分析技术。
随着数据分析技术水平的不断提高,可处理的数据量大大增加,对事物理解的角度将比以前更宽广、更全面。
2.由追求数据精确性转变为接受数据混杂性
过度注重精确性是小数据时代的特点。小数据时代的数据分析,更多的是精确的样本、深度的数据挖掘,不符合规格的样本会被过滤掉,然后深度挖掘数据字段间的关系,得出精确无比的结果。
在大数据时代,只有5%的数据是传统数据库中的结构化数据,95%的数据是混合杂乱的非结构化数据,因此分析出的结果不会很精确。大数据更多通过对各种数据分析得出某种趋势,这种趋势不强求过于精确。因此,只有接受数据的不精确性和完整性,才能发现事物的真相。
3.小数据到大数据的一般处理过程
1)数据的采集
大数据采集多个“小数据”,通过数据库进行查询和处理。数据抽取将分布于异构数据源中的数据抽取进行清洗、转换、集成,并联机分析处理使之成为数据挖掘的基础。
在大数据采集过程中,其主要特点和挑战是并发数高,因为有可能同时有成千上万的用户在进行访问和操作。例如,火车票售票网站和淘宝的并发访问量在峰值时可达上百万人次,需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片需要深入思考和设计。
2)数据导入与预处理
数据导入与预处理过程通常会用到自然语言处理(Natural Language Processing,NLP)和人工智能(Artificial Intelligence,AI)等技术。
数据导入与预处理过程的特点和挑战主要是导入的数据量大,每秒的数据导入量通常会达到百兆字节,甚至千兆字节。
3)数据统计与分析
数据统计与分析主要利用分布式数据库或分布式计算集群,对存储其内的海量数据进行分析和分类汇总等,以满足大多数常见的分析需求。
数据统计与分析的主要特点和挑战是数据分析涉及的数据量大,对系统资源尤其是I/O的占用率较高。
4)数据挖掘
数据挖掘一般没有预先设定好的主题,主要在现有数据上进行基于各种算法的计算,从而起到预测的效果,进而满足一些高级别数据分析的需求。
数据挖掘过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量均很大,常用的数据挖掘算法以单线程为主。