上QQ阅读APP看书,第一时间看更新
1.1 Hadoop简介
Hadoop是一个由Apache基金会开发的开源软件,具有可靠性、扩展性的分布式的计算存储系统,标识性Logo为一个黄色小象(见图1-2)。Hadoop软件库作为一个框架,它可以轻松地通过1台到数千台服务器联合在一起实现对大数据进行存储和计算,而且每一个都能提供存储和计算能力。用户可以在不了解 Hadoop 底层细节的情况下,开发分布式程序,能够十分方便地利用集群的强大能力进行程序运算,而且能够解决高可用问题。Hadoop系统实现了一个分布式文件系统(Hadoop Distributed File System,HDFS)。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上。它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
图1-2 Logo
Hadoop的框架核心的设计是HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。
Hadoop项目主要包括4个部分。
Hadoop Common:支撑其他模块。
Hadoop Distributed File System:分布式系统对应用提供高吞吐量的访问。
Hadoop Yarn:资源管理和任务调度的一个框架。
Hadoop MapReduce:能够并行处理大数据集的Yarn基本系统。