2.4.2 创建数据模型_Apache Kylin权威指南（第2版）-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

2.4.2 创建数据模型

有了表信息后，就可以开始创建数据模型了。数据模型（Data Model）是Cube的基础，主要根据分析需求进行设计。有了数据模型以后，定义Cube的时候就可以直接从此模型定义的表和列中进行选择了，省去了重复指定连接（JOIN）条件的步骤。基于一个数据模型可以创建多个Cube，方便减少用户的重复性工作。

在Apache Kylin界面的“Model”页面，点击“New”→“New Model”命令，开始创建数据模型。给模型输入名称后，选择一个事实表（必需的），然后添加维度表（可选），如图2-4所示。

图2-4 添加事实表

添加维度表的时候，首先选择表之间的连接关系，同时选择表之间的连接类型：是inner jion还是left jion，并为创建的维度表输入别名。同时可以选择是否将其以快照（Snapshot）形式存储到内存中以供查询。当维度表小于300MB时，推荐启用维度表以快照形式存储，以简化Cube计算和提高系统整体效率。当维度表超过300MB上限时，则建议关闭维度表快照，以提升Cube构建的稳定性与查询的性能。然后选择连接的主键和外键，这里也支持多主键，如图2-5所示。

图2-5 添加维度表

接下来选择用作维度和度量的列。这里只是选择一个范围，不代表这些列将来一定要用作Cube的维度或度量，你可以把所有可能会用到的列都选进来，后续创建Cube的时候，将只能从这些列中进行选择。

选择维度列时，维度可以来自事实表或维度表，如图2-6所示。

图2-6 选择维度列

选择度量列时，度量只能来自事实表或不加载进内存的维度表，如图2-7所示。

图2-7 选择度量列

最后一步，是为模型补充分割时间列信息和过滤条件。如果此模型中的事实表记录是按时间增长的，那么可以指定一个日期／时间列作为模型的分割时间列，从而可以让Cube按此列做增量构建，关于增量构建的具体内容参见第4章。

过滤（Filter）条件是指，如果想把一些记录忽略掉，那么这里可以设置一个过滤条件。Apache Kylin在向Hive请求源数据的时候，会带上此过滤条件。如图2-8所示，会只保留金额（price）大于0的记录。

图2-8 选择分区列和设定过滤条件

最后，点击“Save”保存此数据模型，随后它将出现在“Model”的列表中。