ClickHouse原理解析与应用实践
上QQ阅读APP看书,第一时间看更新

第2章 ClickHouse架构概述

随着业务的迅猛增长,Yandex.Metrica目前已经成为世界第三大Web流量分析平台,每天处理超过200亿个跟踪事件。能够拥有如此惊人的体量,在它背后提供支撑的ClickHouse功不可没。ClickHouse已经为Yandex.Metrica存储了超过20万亿行的数据,90%的自定义查询能够在1秒内返回,其集群规模也超过了400台服务器。虽然ClickHouse起初只是为了Yandex. Metrica而研发的,但由于它出众的性能,目前也被广泛应用于Yandex内部其他数十个产品上。

初识ClickHouse的时候,我曾产生这样的感觉:它仿佛违背了物理定律,没有任何缺点,是一个不真实的存在。一款高性能、高可用OLAP数据库的一切诉求,ClickHouse似乎都能满足,这股神秘的气息引起了我极大的好奇。但是刚从Hadoop生态转向ClickHouse的时候,我曾有诸多的不适应,因为它和我们往常使用的技术“性格”迥然不同。如果把数据库比作汽车,那么ClickHouse俨然就是一辆手动挡的赛车。它在很多方面不像其他系统那样高度自动化。ClickHouse的一些概念也与我们通常的理解有所不同,特别是在分片和副本方面,有些时候数据的分片甚至需要手动完成。在进一步深入使用ClickHouse之后,我渐渐地理解了这些设计的目的。某些看似不够自动化的设计,反过来却在使用中带来了极大的灵活性。与Hadoop生态的其他数据库相比,ClickHouse更像一款“传统”MPP架构的数据库,它没有采用Hadoop生态中常用的主从架构,而是使用了多主对等网络结构,同时它也是基于关系模型的ROLAP方案。这一章就让我们抽丝剥茧,看看ClickHouse都有哪些核心特性。