1.2.2 Apache Kylin怎样解决关键问题_Apache Kylin权威指南（第2版）-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.2.2 Apache Kylin怎样解决关键问题

Apache Kylin的初衷就是解决千亿、万亿条记录的秒级查询问题，其中的关键就是打破查询时间随着数据量呈线性增长的这一规律。仔细思考大数据OLAP，我们可以注意到两个事实。

●大数据查询要的一般是统计结果，是多条记录经过聚合函数计算后的统计值。原始的记录则不是必需的，或者被访问的频率和概率极低。

●聚合是按维度进行的，而维度的聚合可能性是有限的，一般不随数据的膨胀而线性增长。

基于以上两点，我们得到一个新的思路——“预计算”。应尽量多地预先计算聚合结果，在查询时刻也尽量使用预计算的结果得出查询结果，从而避免直接扫描可能无限增长的原始记录。

举例来说，要用下面的SQL来查询10月1日那天销量最高的商品。

SELECT item, SUM(sell_amount)
FROM sell_details
WHERE sell_date='2016-10-01'
GROUP BY item
ORDER BY SUM(sell_amount) DESC

传统的方法需要扫描所有的记录，找到10月1日的销售记录，然后按商品聚合销售额，最后排序返回。假如10月1日有1亿条交易，那么查询必需读取并累计至少1亿条记录，且查询速度会随将来销量的增加而逐步下降，如果日交易量提高至2亿条，那查询执行的时间可能会增加一倍。

而预计算的方法则会事先按维度[sell_date，item]计算SUM(sell_amount)并将其存储下来，在查询时找到10月1日的销售商品就可以直接排序返回了。读取的记录数最大不超过维度[sell_date，item]的组合数。显然这个数字将远远小于实际的销售记录，比如10月1日的1亿条交易包含了100万种商品，那么预计算后就只有100万条记录了，是原来的百分之一。并且这些记录是已经按商品聚合的结果，省去了运行时的聚合运算。从未来的发展来看，查询速度只会随日期和商品数目的增长而变化，与销售记录总数不再有直接联系。假如日交易量提高一倍到2亿，但只要商品总数不变，那么预计算的结果记录总数就不会变，查询的速度也不会变。

“预计算”就是Kylin在“大规模并行处理”和“列式存储”之外，提供给大数据分析的第三个关键技术。

本周热推：

从零开始学51单片机C语言打印机维修不是事儿（第2版）计算机主板维修不是事儿（第2版）计算机组装与维护电脑组装、维护、维修全能一本通（全彩版）