上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第3章 大数据采集
大数据的来源多种多样,在大数据时代背景下,如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石,大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。
本章首先介绍数据采集与大数据采集的区别、大数据的来源、大数据采集的概念和分类等;然后重点介绍大数据采集的方法,Flume、Fluentd、Logstash、Chukwa、Scribe、Splunk、Scrapy等常用的大数据采集工具及平台,以及网络爬虫技术;最后通过实战说明如何利用这些技术、方法、工具及平台采集大数据。
大数据采集导览如图3-1所示。
图3-1 大数据采集导览