上QQ阅读APP看书,第一时间看更新
2.4.1 导入Hive表定义
登录Apache Kylin的Web界面,创建新的或选择一个已有项目后,需要做的就是将Hive表的定义导入Apache Kylin。
点击Web界面的“Model”→“Data source”下的“Load Hive Table Metadata”图标,然后输入表的名称(可以一次导入多张表,以逗号分隔表名)(如图2-1所示),点击按钮“Sync”,Apache Kylin就会使用Hive的API从Hive中获取表的属性信息。
图2-1 输入Hive表名
导入成功后,表的结构信息会以树状形式显示在页面的左侧,可以点击展开或收缩,如图2-2所示。
图2-2 完成导入的Hive表
同时,Apache Kylin会在后台触发一个MapReduce任务,计算此表每个列的基数。通常稍过几分钟后刷新页面,就会看到基数信息显示出来,如图2-3所示。
图2-3 计算得到的各列基数
需要注意的是,这里Apache Kylin对基数的计算采用的是HyperLogLog的近似算法,与精确值略有误差,但作为参考值已经足够。