上QQ阅读APP看书,第一时间看更新
2.2 在Hive中准备数据
上一节介绍了Apache Kylin中的常见概念。在本节中将介绍准备Hive数据时的一些注意事项。需要进行分析的数据必须先保存为Hive表的形式,只有这样Apache Kylin才能从Hive中导入数据、创建Cube。
Apache Hive是一个基于Hadoop的数据仓库工具,最初由Facebook开发并贡献到Apache软件基金会。Hive可以将结构化的数据文件映射为数据库表,并可以将SQL语句转换为MapReduce或Tez任务运行,从而让用户以类SQL(HiveQL,HQL)的方式管理和查询Hadoop上的海量数据。
此外,Hive提供了多种方式(如命令行、API和Web服务等)供第三方方便地获取和使用元数据并进行查询。今天,Hive已经成为Hadoop数据仓库的首选,是Hadoop不可或缺的一个重要组件,很多项目都兼容或集成Hive。鉴于此,Apache Kylin选择Hive作为原始数据的主要来源。
在Hive中准备待分析的数据是使用Apache Kylin的前提。将数据导入Hive表的方法很多,用户管理数据的技术和工具也多种多样,故其具体步骤不在本书的讨论范围之内,如有需要可以参阅Hive的文档。这里着重阐述几个需要注意的事项。