大数据采集与处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 开源Hadoop

Hadoop依赖MapReduce计算模型及HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)等组件,在分布式环境下提供强大的海量数据处理能力。随着各行业数据量的激增,传统的数据处理能力已遇到瓶颈。基于此背景,Hadoop强大的数据处理能力逐渐在业内得到了广泛的应用,并成为大数据的代名词。由于其底层细节的透明性,程序员能够很容易地编写分布式并行程序并将其程序运行于计算机集群之上。

本章主要介绍Hadoop框架、特性、发展史、Hadoop生态系统及其各功能组件等,并实战演示Hadoop在Linux操作系统上的几种安装模式与使用方法。

开源Hadoop导览如图2-1所示。

图2-1 开源Hadoop导览