上QQ阅读APP看书，第一时间看更新

第5章 Kettle与Hadoop

上一章详细介绍了Apache Hadoop和CDH的安装，这为我们开启Hadoop上的数据仓库之旅做好了准备。在一个数据仓库项目中，开发阶段最关键的是ETL过程。大致有三种ETL的实现途径：使用ETL工具、使用特定数据库的SQL、使用程序语言开发自己的ETL应用。本章介绍第一种方式。我们将使用Kettle这款最流行的ETL工具操作Hadoop上的数据。

首先概要介绍Kettle对大数据的支持，然后用示例说明Kettle如何连接Hadoop，如何导入导出Hadoop集群上的数据，如何用Kettle执行Hive的HiveQL语句（HiveQL将在6.2节作简要介绍），还会用一个典型的MapReduce转换，说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。本章最后介绍如何在Kettle中提交Spark作业。