2.1.1 Redis & Memcached缓存型数据库_阿里云数字新基建系列：云数据库架构-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.1.1　Redis & Memcached缓存型数据库

任何一个事物都不会凭空出现，缓存型数据库也不例外。随着互联网技术的普及，静态网页越来越少，大部分动态网站都需要挂载数据库才能完成交互。传统的关系型数据库，经过了轻量级MySQL挑战重量级Oracle/SQL Server的时代，大家认识到，易用、简单的数据库已经足以支撑起自己的站点。甚至，某些站点或某些应用的业务逻辑非常简单，根本不需要复杂的SQL语句，瓶颈往往是峰值流量，而这种场景对MySQL并不友好。很多新兴行业的出现，比如直播、游戏等，大家急需要一种极简、易用的数据库，帮助动态请求交互。这一切，就是以Redis & Memcached为代表的缓存型数据库出现的历史背景。

从历史上说，Memcached出现得更早，大约在2003年就有了首个公开版本，它的开发者是前Google著名的程序员Brad Fitzpatrick，他曾经也是Golang项目组成员之一。Redis的出现则晚一些，2009年，由来自意大利的开发者（网名antirez）开发，现在由Redis Labs维护。

网上关于Redis和Memcached谁更优秀的讨论，比比皆是。Redis与Memcached最重要的区别在于，Redis提供了更丰富的Value类型，并且提供了持久化和数据复制的能力。从结果来看，Redis正在逐步取代Memcached，阿里云甚至开始使用Redis兼容Memcached协议，以保证一些老的应用依然可以使用Memcached服务。

2.1.1.1　Redis单线程模型的实现方式

几乎所有的数据库（包括Memcached）都是使用多进程或多线程的方式，来实现并发处理数据库请求的，但Redis最出名的，就是以单线程模型扛起了数以万计的请求。以阿里云Redis为例，一个Redis节点便能够扛起8万QPS，企业版TairDB更是能扛起10万QPS。为什么Redis的单线程这么厉害？

这其中有两个地方，决定了Redis能够按单线程处理。

第一，Redis的命令，并不像SQL一样有非常长的谓词判断逻辑、表连接逻辑，动辄10行、20行的SQL命令，在Redis命令中最多就是几个option，解析器、优化器的处理难度大幅度降低。而且Redis的存储结构全部是key-value格式的，没有二维表的众多主外键约束、索引冗余空间，在原生设计上就极简。

第二，Redis的类I/O操作全部是异步的。这也决定了执行器的链路被大大缩短，不再需要由主进程跟进存储引擎（这里也包括对内存的I/O）。Redis的类I/O操作全部丢给epoll来处理。Redis 6.0 Beta提出的三线程模型，即TairDB 5.0增强性能版本，都是在保留经典的单工作线程模型的情况下，使用多线程epoll来做好响应和接待的，如图2-1所示。

图2-1　Redis主线程与I/O线程

而在主进程内收到的并发请求命令，会按照时间戳进行拆分，串行地用单线程处理。换句话说，Redis通过拆细时间片，把大量并发请求编排出串行。

这个模型的瓶颈也是显而易见的，即：一旦有任何一个命令处理慢了，比如keys命令或者上锁的命令（如blpop），则会导致主进程卡顿，请求出现排队。所以说Redis的慢请求，其影响程度要远超过多线程模型的数据库。

Redis社区，从Redis 2.8到6.0版本都在不断地迭代，其中一个核心提高点，就是提高慢请求的速度，比如使用hgetall、zrange等命令。甚至，为了避免超大Hash，还推出了Bloom Filter（布隆过滤器）。

因为极简、易用的特点设计，Redis基本不写日志，在server log中只会记录一些关键任务，比如AOF的相关操作、启停等，所以对诊断和排查有较大的挑战。

2.1.1.2　Redis持久化机制

Redis的持久化主要依赖两个方面，即：类似于镜像技术的RDB和类似于逻辑日志的AOF（Apend Only File）。AOF承担了Redis主从复制的主要任务。

我们一般将AOF翻译为“追加式文件”，即Redis会持续地将key的变更操作追加写入文件内。随着时间的推移，这个文件会不断地增长。并且AOF文件用于恢复时，实际上是将文件内记录的key操作顺序重放一遍，当AOF文件中记录的冗余操作非常多（如某个key写入后发生了大量的变更，或者某些key当前已被删除或过期）时，Redis需要将这些冗余的操作“不厌其烦”地重新执行一次，即便单次命令操作得很快（μs级），当需要重放的操作数量级很大时，恢复的整体时间也会超出我们的承受范围。只有尽量减少AOF文件中不必要的冗余操作，降低文件大小，保证其恢复时间可控，AOF持久化才有其存在的意义，AOF ReWrite机制因此被设计出来以解决问题。

AOF ReWrite主要分为ReWrite（阻塞工作线程）和BGReWrite（不阻塞工作线程）两种。由于前者在生产环境中使用率极低，因此这里主要介绍后者的实现细节，如图2-2所示。

图2-2　AOF BGReWrite过程

说明

图中①标注的阶段，由于需要额外的内存区缓存子线程diff_from_parent的增量日志内容，当业务写操作QPS非常高时，这个内存开销会比较大。

图中②标注的阶段，由于需要短暂阻塞业务请求，阻塞时间一般受业务写请求的QPS和磁盘I/O影响，当业务写操作QPS非常高或I/O性能不理想时，可能会对业务造成较明显的影响。

当出现上述两种场景问题时，对Redis Server进行增加内存、使用性能更好的SSD存储等垂直扩展操作，往往较难线性地达到理想的预期效果，此时水平拆分（即Redis集群化拆分）也是一个不错的选择。

2.1.1.3　Redis集群的实现原理

基于前面介绍的Redis线程模型可知，Redis的扩展性主要体现在如下两个方面。

第一，垂直扩展。在单机环境中扩展Redis的内存，使它能存储更多的数据。但存在QPS瓶颈，因为单线程模型有固定的QPS上限。

还有一种思路是读/写分离，即扩展Redis的只读节点。这种读/写分离的场景，虽然不能提高写入的QPS水平，但是能针对热点key，进行热点只读流量的对冲。毕竟选用Redis的场景，应该是多读少写的，这才符合缓存的设计要求。

第二，水平扩展，既能扩展内存，又能扩展计算节点。其中最流行的两种水平扩展方案是社区版Redis Cluster和阿里云选用的Redis Sharding。

社区版Redis Cluster采用的是去中心化的集群，由节点自己去协商。假如请求在A节点上，而数据在其他节点上，则会由A节点去请求路由其他节点。但是其间可能会遇到重新分片（Reshard）的情况，所以在使用上有些麻烦。社区版Redis Cluster架构如图2-3所示。

图2-3　社区版Redis Cluster架构

阿里云采用的是类似于Codis（但不支持codis命令）的Sharding设计，如图2-4所示。数据被Hash计算后，平均分布到各个Shard上，每个Shard上的key的数量近似一致。其带来的好处是学习成本非常低，这个分布对于前台应用完全是透明的，且分散比较均匀，各个节点的压力也比较均衡。

图2-4　阿里云Redis Proxy透明集群结构

但是因为分片的原则是希望节点上的key数量一致，所以如果有大key（即存储空间比较大的key）存在，则会打破这个平衡，导致某个Shard上的内存开销比较大。因此，在分片集群的使用中，需要注意规避大key，把大key拆小。

2.1.1.4　Redis缓存空间管理

Redis本质上是基于内存的缓存存储，这决定了它的空间容量往往有明显的局限性。同时由于缓存具有生命周期短、快速迭代的特性，如何有效地管理缓存的生命周期并建立有效的清理机制，以避免缓存击穿，是内核设计中需要考虑的首要问题。

1. 生命周期管理

Redis提供了EXPIRE（TTL秒级）、PEXPIRE（TTL毫秒级）、EXPIREAT（指定TTL至秒级时间戳）、PEXPIREAT（指定TTL至毫秒级时间戳）等命令，用于设置一个key的生命周期。

2. 过期清理机制

对于超出生命周期的key，一般被称为过期key。对于过期key，常见的清理策略有如下三种。

立即清理：key过期后立即清理，CPU开销较大。

惰性清理：从不主动清理，只有过期key被请求到时才触发清理，内存开销较大。

定时清理：按固定频率扫描并清理，清理效率和资源开销都处于前两种策略之间。

由于Redis单线程的特性，其进程大部分CPU时间都用于处理业务请求，选择立即清理策略会占用较多的CPU时间，对其高并发性能有明显的影响；而Redis的内存空间限制也决定了惰性清理策略不够友好，可见，能够利用较少的CPU时间尽可能多地清理掉过期key的清理机制才是最适合Redis的。Redis内核最终选择了定时清理+惰性清理的组合策略来实现对过期key的清理。

Redis内核会在CPU空闲时随机从数据库内选择一定数量有生命周期的key，并清理掉已过期的key，如果已过期的key占比超过25%，则会再进行一轮key的选择和清理，单次清理动作最多重复4轮；清理动作的触发频率可以通过设置参数hz的值来调整，但不建议超过100。

从定期清理策略可以看出，Redis的过期key一般较难准确地彻底清理。如果内存水位高需要较为彻底的清理，则可以基于惰性清理策略，使用scan等命令分批全量扫描所有key，扫描到的key会被清理掉。

3. 满内存逐出机制

为了避免内存满业务不可用或内存溢出，Redis提供了这样的功能：当内存满时，如果有新的写入操作，则按照一定的策略清理缓存释放内存空间。这个功能可以通过设置参数maxmemory-policy来实现，对应的策略及其说明如表2-1所示。

表1-5　Redis满内存逐出策略及其说明

2.1.1.5　Redis主从复制

一个成熟完备的数据库需要具备高可用的主从复制能力，以应对宕机、灾备等风险场景，Redis同样提供了主从复制能力。

在讲解Redis主从复制过程前，我们需要先了解一下Redis的复制缓冲区（REPL_BACKLOG）。在默认情况下，REPL_BACKLOG是一个1MB大小的先进先出定长队列，在Master节点上增量操作会被顺序记录到这个backlog中，当队列写满时后续记录会逐步推出之前的记录

说明

我们可以形象地将复制缓冲区比喻为羽毛球筒，在一个球筒只能放入10个球且已放满的情况下，塞入新的球，就会把最早放进去的球从另一侧顶出，由此可以理解为repl_backlog_first_byte_offset就是目前球筒里最早放进去的那个球，master_repl_offset是球筒里最后放进去的那个球，repl_backlog_histlen是球筒里放入的球的数量。

Redis主从复制过程如下：

①Redis主从复制环境搭建后，由于Slave节点初始并没有数据，因此是在Master节点上执行bg save命令生成全量RDB备份并传输到Slave节点恢复的，同时记录了初始Offset（偏移位点）。

②Slave节点上的RDB恢复完成后，它拿着初始Offset向Master节点请求后续数据，Master节点检查REPL_BACKLOG，发现这个Offset还存在，于是将下一个Offset的操作发给Slave节点，Slave节点追加完成后更新Offset并继续请求下一个Offset的操作（这个过程就是部分重同步）。如此循环，直至主从数据库同步。

③假如主从数据库之间的连接中断一段时间，恢复后Slave节点会用自身最后一次成功应用的Offset向Master节点请求数据，此时Master节点检查Offset，如果发现它还在REPL_BACKLOG队列中，则按照步骤②循环；如果发现它已经不在队列中了，则新建主从链路，回到步骤①，从RDB开始重新传输。

最后，随着非易失性内存的普及，以及PMem的上线，阿里云已经拥有了AEP机型的Redis，从而解决了之前断电内存数据失效的痛点，Redis的泛用性可见地增强了。

2.1.1 Redis & Memcached缓存型数据库

2.1.1.1 Redis单线程模型的实现方式

2.1.1.2 Redis持久化机制

2.1.1.3 Redis集群的实现原理