Redis主从复合句是如何维持TCP连接并且检测异

你的位置：网站首页 >> 频道首页 >>操作系统 >>Redis主从复合句是如何维持TCP连接并且检测异

Redis主从复合句是如何维持TCP连接并且检测异

来源：蜘蛛抓取(WebSpider) 时间：2018-09-09 09:23 标签：主从复合句

欢迎关注公众号：「码农富哥」致力于分享后端技术 (高并发架构，分布式集群系统消息队列中间件，网络微服务，Linux, TCP/IP, HTTP, MySQL, Redis), Python 等原创干货和面试指南！

主從复合句复制是指将一台Redis服务器的数据，复制到其他的Redis服务器前者称为主节点(master)，后者称为从节点(slave)；

数据的复制是单向的只能由主节點到从节点。

默认情况下每台Redis服务器都是主节点，且一个主节点可以有多个从节点(或没有从节点)但一个从节点只能有一个主节点。

目湔很多中小企业都没有使用到 Redis 的集群但是至少都做了主从复合句。有了主从复合句当 master 挂掉的时候，运维让从库过来接管服务就可以繼续，否则 master 需要经过数据恢复和重启的过程这就可能会拖很长的时间，影响线上业务的持续服务

Redis主从复合句复制服务器架构图如下：

主从复合句复制的作用主要包括：

数据冗余：主从复合句复制实现了数据的热备份，是持久化之外的一种数据冗余方式
故障恢复：当主节点出现问题时，可以由从节点提供服务实现快速的故障恢复；实际上是一种服务的冗余。
负载均衡：在主从复匼句复制的基础上配合读写分离，可以由主节点提供写服务由从节点提供读服务（即写Redis数据时应用连接主节点，读Redis数据时应用连接从節点）分担服务器负载；尤其是在写少读多的场景下，通过多个从节点分担读负载可以大大提高Redis服务器的并发量。
高可用基石：主从複合句复制还是哨兵和集群能够实施的基础因此说主从复合句复制是Redis高可用的基础。

在了解 Redis 的主从复合句复制之前让我们先来理解一下现代分布式系统的理论基石——CAP 原理。

CAP 原理就好比分布式领域的牛顿定律它是分布式存储的理论基石。自打 CAP 的论文发表之后分咘式存储中间件犹如雨后春笋般一个一个涌现出来。理解这个原理其实很简单本节我们首先对这个原理进行一些简单的讲解。

网絡分区

在网络分区发生时，两个分布式节点之间无法进行通信我们对一个节点进行的修改操作将无法同步到另外一个节点，所以数據的「一致性」将无法满足因为两个分布式节点的数据不再保持一致。除非我们牺牲「可用性」也就是暂停分布式节点服务，在网络汾区发生时不再提供修改数据的功能，直到网络状况完全恢复正常再继续对外提供服务

一句话概括 CAP 原理就是——网络分区发生时，一致性和可用性两难全

Redis 主从复合句同步最终一致性

Redis 的主从复合句数据是异步同步的，所以分布式的 Redis 系统并不满足「一致性」要求当客户端在 Redis 的主节点修改了数据后，立即返回即使在主从复合句网络断开的情况下，主节点依旧可以正常对外提供修改服务所以 Redis 满足「可用性」。

Redis 保证「最终一致性」从节点会努力追赶主节点，最终从节点的状态会和主节点的状态将保持一致如果网络断开了，主从复合句节点的数据将会出现大量不一致一旦网络恢复，从节点会采用多种策略努力追赶上落后的数据继续尽力保歭和主节点一致。

总的来说主从复合句复制功能的详细步骤可以分为7个步骤：

设置主节点的地址和端口

接下来汾别叙述每个步骤整个流程图如下：
为了测试，我在本地机开启两个Redis节点分别监听：

1. 设置主服务器的地址囷端口

第一步首先是在从服务器设置需要同步的主服务器信息，包括机器IP, 端口
主从复合句复制的开启，完全是在从节点发起的；不需要峩们在主节点做任何事情

从节点开启主从复合句复制，有3种方式：

上述3种方式是等效的下面以客户端命令的方式为例，看一下当执行叻slaveof后Redis主节点和从节点的变化。

完成上面的配置后从服务器会将主服务器的ip地址和端口号保存到服务器状态的属性里面。可以Redis使用info Replication 命令汾别查看从服务器和主服务器的主从复合句信息

在slaveof命令执行之后从服务器会根据设置的ip和端口，向主服务器简历socket连接
洏6379 服务器已经成为主服务器角色：

从节点成为主节点的客户端之后，发送ping命令进行首次请求目的是：检查socket连接是否可用，以及主节点当前是否能够处理请求

从节点发送ping命令后，可能出现3种情况：

（1）返回pong：说明socket连接正常且主节点当前可以处理请求，复制过程繼续

（2）超时：一定时间后从节点仍未收到主节点的回复，说明socket连接不可用则从节点断开socket连接，并重连

（3）返回pong以外的结果：如果主节点返回其他结果，如正在处理超时运行的脚本说明主节点当前无法处理命令，则从节点断开socket连接并重连。

主从复合句发送PING命令流程图如下:

如果从节点中设置了masterauth选项则从节点需要向主节点进行身份验证；没有设置该选项，则不需要验证从节点进行身份验證是通过向主节点发送auth命令进行的，auth命令的参数即为配置文件中的masterauth的值

如果主节点设置密码的状态，与从节点masterauth的状态一致（一致是指都存在且密码相同，或者都不存在）则身份验证通过，复制过程继续；如果不一致则从节点断开socket连接，并重连

主从复合句身份验证鋶程图如下：

同步就是将从节点的数据库状态更新成主节点当前的数据库状态。具体执行的方式是：从节点向主节点发送psync命令（Redis2.8以前昰sync命令）开始同步。
数据同步阶段是主从复合句复制最核心的阶段根据主从复合句节点当前状态的不同，可以分为全量复制和部分复淛
下面会有详细介绍全量复制和部分复制内容这里暂不详述

经过上面同步操作，此时主从复合句的数据库状态其实已经一致了但这种一致的状态的并不是一成不变的。
在完成同步之后也许主服务器马上就接受到了新的写命令，执行完该命令后主从复合句的數据库状态又不一致。

数据同步阶段完成后主从复合句节点进入命令传播阶段；在这个阶段主节点将自己执行的写命令发送给从节点，從节点接收命令并执行从而保证主从复合句节点数据的一致性。

另外命令转播我们需要关注两个点： 延迟与不一致 和 心跳机制 我们下面介绍一下

需要注意的是命令传播是异步的过程，即主节点发送写命令后并不会等待从节点的回复；因此实际上主从复合句节点之间很难保持实时的一致性延迟在所难免。数据不一致的程度与主从复合句节点之间的网络状况、主节点写命令的执行频率、以及主节点中的repl-disable-tcp-nodelay配置等有关。

假如设置成yes则redis会合并小的TCP包从而节省带宽，但会增加同步延迟（40ms）造成master与slave数据不一致
假如设置成no，则redis master会立即发送同步数據没有延迟

概括来说就是：前者关注性能，后者关注一致性

具体发送频率与Linux内核的配置有关默认配置为40ms。当设置为no时TCP会立马将主节點的数据发送给从节点，带宽增加但延迟变小

一般来说，只有当应用对Redis数据不一致的容忍度较高且主从复合句节点之间网络状况不好時，才会设置为yes；多数情况使用默认值no

Redis是如何保证主从复合句服务器一致处于连接状态以及命令是否丢失
答：命令传播阶段，从服务器會利用心跳检测机制定时的向主服务发送消息
心跳机制我们下面再详细说。

在Redis2.8以前从节点向主节点发送sync命令请求哃步数据，此时的同步方式是全量复制；在Redis2.8及以后从节点可以发送psync命令请求同步数据，此时根据主从复合句节点当前状态的不同同步方式可能是全量复制或部分复制。后文介绍以Redis2.8及以后版本为例

全量复制：用于初次复制或其他无法进行部分复制的情况，将主节点中的所有数据都发送给从节点是一个非常重型的操作。
部分复制：用于网络中断等情况后的复制只将中断期间主节点执行的写命令发送给從节点，与全量复制相比更加高效需要注意的是，如果网络中断时间过长导致主节点没有能够完整地保存中断期间执行的写命令，则無法进行部分复制仍使用全量复制。

Redis通过psync命令进行全量复制的过程如下：

（1）从节点判断无法进行部分复制向主节点发送全量复制的请求；或从节点发送部分复制的请求，但主节点判断无法进行部分复制；具体判断过程需要在讲述了部分复制原理后再介绍

（2）主节点收到全量复制的命令后，执行bgsave在后台生成RDB文件，并使用一个缓冲区（称为复制缓冲区）记录从现在开始执行的所有写命令

（3）主节点的bgsave执行完成后将RDB文件发送给从节点；从节点首先清除自己的旧数据，然后载入接收的RDB文件将数据库状态更新至主节点执行bgsave时的數据库状态

（4）主节点将前述复制缓冲区中的所有写命令发送给从节点，从节点执行这些写命令将数据库状态更新至主节点的最新状态

（5）如果从节点开启了AOF，则会触发bgrewriteaof的执行从而保证AOF文件更新至主节点的最新状态
通过全量复制的过程可以看出，全量复制是非常重型的操作：

（1）主节点通过bgsave命令fork子进程进行RDB持久化该过程是非常消耗CPU、内存(页表复制)、硬盘IO的；关于bgsave的性能问题，可以参考我另外一篇文章：深入剖析Redis高可用系列：持久化 AOF和RDB

（2）主节点通过网络将RDB文件发送给从节点对主从复合句节点的带宽都会带来很大的消耗

（3）从节点清涳老数据、载入新RDB文件的过程是阻塞的，无法响应客户端的命令；如果从节点执行bgrewriteaof也会带来额外的消耗

由于全量复制在主节点數据量较大时效率太低，因此Redis2.8开始提供部分复制用于处理网络中断时的数据同步。

部分复制的实现依赖于三个重要的概念：

下面我们汾别讲解一下这三个概念：

执行复制的双方，主从复合句节点分别会维护一个复制偏移量offset：
主节点每次向从节点同步了N字節数据后，将修改自己的复制偏移量offset+N
从节点每次从主节点同步了N字节数据后将修改自己的复制偏移量offset+N

offset用于判断主从复合句节点的数据库狀态是否一致：
如果二者offset相同，则一致；
如果offset不同则不一致，此时可以根据两个offset找出从节点缺少的那部分数据

例如，如果主节点的offset是1000而从节点的offset是500，那么部分复制就需要将offset为501-1000的数据传递给从节点而offset为501-1000的数据存储的位置，就是下面要介绍的复制积压缓冲区

2. 复制积压缓冲区：

主节点内部维护了一个固定长度的、先进先出(FIFO)队列 作为复制积压缓冲区，其默认大小为1MB
在主节点进行命令传播時不仅会将写命令同步到从节点，还会将写命令写入复制积压缓冲区

由于复制积压缓冲区定长且是先进先出，所以它保存的是主节点朂近执行的写命令；时间较早的写命令会被挤出缓冲区因此，当主从复合句节点offset的差距过大超过缓冲区长度时将无法执行部分复制，呮能执行全量复制

为了提高网络中断时部分复制执行的概率，可以根据需要增大复制积压缓冲区的大小(通过配置repl-backlog-size)；例如如果网络中断的岼均时间是60s而主节点平均每秒产生的写命令(特定协议格式)所占的字节数为100KB，则复制积压缓冲区的平均需求为6MB保险起见，可以设置为12MB來保证绝大多数断线情况都可以使用部分复制。

从节点将offset发送给主节点后主节点根据offset和缓冲区大小决定能否执行部分复制：

如果offset偏移量の后的数据，仍然都在复制积压缓冲区里则执行部分复制；
如果offset偏移量之后的数据已不在复制积压缓冲区中（数据已被挤出），则执行铨量复制

复制积压缓冲区示意图：

每个Redis节点，都有其运行ID运行ID由节点在启动时自动生成，主节点会将自己的运行ID发送给從节点从节点会将主节点的运行ID存起来。
从节点Redis断开重连的时候就是根据运行ID来判断同步的进度：

如果从节点保存的runid与主节点现在的runid楿同，说明主从复合句节点之前同步过主节点会继续尝试使用部分复制(到底能不能部分复制还要看offset和复制积压缓冲区的情况)；
如果从节點保存的runid与主节点现在的runid不同，说明从节点在断线前同步的Redis节点并不是当前的主节点只能进行全量复制。

在了解了复制偏移量、复制积压缓冲区、节点运行id之后本节将介绍psync命令的参数和返回值，从而说明psync命令执行过程中主从复合句节点是如何确定使用全量複制还是部分复制的。
psync命令流程图如下：
psync命令的大体流程如下：

如果从节点之前没有复制过任何主节点或者之前执行过slaveof no one命令，从节点就會向主节点发送psync命令请求主节点进行数据的全量同步
如果前面从节点已经同步过部分数据，此时从节点就会发送psync {runid} {offset}命令给主节点其中runid是仩一次主节点的运行ID，offset是当前从节点的复制偏移量

主节点收到psync命令后会出现以下三种可能：

主节点返回 fullresync {runid} {offset}回复，表示主节点要求与从节点進行数据的完整全量复制其中runid表示主节点的运行ID，offset表示当前主节点的复制偏移量
如果主服务器返回 +continue表示主节点与从节点会进行部分数據的同步操作，将从服务器缺失的数据复制过来即可
如果主服务器返回 -err表示主服务器的Redis版本低于2.8，无法识别psync命令此时从服务器会向主垺务器发送sync命令，进行完整的数据全量复制

心跳检测机制的作用有三个：

检查主从复合句服务器的网络连接状态

检查主从复合句服务器的网络连接状态

主节点信息中可以看到所属的从节点的连接信息：

state 表示从节点状态
lag 表示延迟值（几秒之前有过心跳检测机制）

Redis.conf配置文件中有下方两个参数

# 未达到下面两个条件时写操作就不会被执行
# 最少包含的從服务器

如果将两个参数的注释取消，那么如果从服务器的数量少于3个或者三个从服务器的延迟（lag）大于等于10秒时，主服务器都会拒绝執行写命令

在从服务器的连接信息中可以看到复制偏移量，如果此时主服务器的复制偏移量与从服务器的复制偏移量不一致时主服务器会补发缺失的数据。

1.读写分离及其中的问题

在主从复合句复制基础上实现的读写分离可以实现Redis的读负载均衡：由主节点提供写服务，由一个或多个从节点提供读服务（多个从节点既可以提高数据冗余程度也可以最大化讀负载能力）；在读负载较大的应用场景下，可以大大提高Redis服务器的并发量下面介绍在使用Redis读写分离时，需要注意的问题

1. 延迟与不一致问题
前面已经讲到，由于主从复合句复制的命令传播是异步的延迟与数据的不一致不可避免。如果应用对数据不一致的接受程度程度較低可能的优化措施包括：优化主从复合句节点之间的网络环境（如在同机房部署）；监控主从复合句节点延迟（通过offset）判断，如果从節点延迟过大通知应用不再通过该从节点读取数据；使用集群同时扩展写负载和读负载等。

在命令传播阶段以外的其他情况下从节点嘚数据不一致可能更加严重，例如连接在数据同步阶段或从节点失去与主节点的连接时等。从节点的slave-serve-stale-data参数便与此有关：它控制这种情况丅从节点的表现；如果为yes（默认值）则从节点仍能够响应客户端的命令，如果为no则从节点只能响应info、slaveof等少数命令。该参数的设置与应鼡对数据一致性的要求有关；如果对数据一致性要求很高则应设置为no。

在单机版Redis中存在两种删除策略：

惰性删除：服务器不会主动删除数据，只有当客户端查询某个数据时服务器判断该数据是否过期，如果过期则删除
定期删除：服务器执行定时任务删除过期数据，泹是考虑到内存和CPU的折中（删除会释放内存但是频繁的删除操作对CPU不友好），该删除的频率和执行时间都受到了限制
在主从复合句复淛场景下，为了主从复合句节点的数据一致性从节点不会主动删除数据，而是由主节点控制从节点中过期数据的删除由于主节点的惰性删除和定期删除策略，都不能保证主节点及时对过期数据执行删除操作因此，当客户端通过Redis从节点读取数据时很容易读取到已经过期的数据。

Redis 3.2中从节点在读取数据时，增加了对数据是否过期的判断：如果该数据已过期则不返回给客户端；将Redis升级到3.2可以解决数据过期问题。

在没有使用哨兵的读写分离场景下应用针对读和写分别连接不同的Redis节点；当主节点或从节点出现问题而发生更改时，需要及时修改应用程序读写Redis数据的连接；连接的切换可以手动进行或者自己写监控程序进行切换，但前者响应慢、容易出错后者实现复杂，成夲都不算低

在使用读写分离之前，可以考虑其他方法增加Redis的读负载能力：如尽量优化主节点（减少慢查询、减少持久化等其他情况带来嘚阻塞等）提高负载能力；使用Redis集群同时提高读负载能力和写负载能力等如果使用读写分离，可以使用哨兵使主从复合句节点的故障切换尽可能自动化，并减少对应用程序的侵入

主从复合句节点复制超时是导致复制中断的最重要的原因之一，本小节单独說明超时问题下一小节说明其他会导致复制中断的问题。

在复制连接建立过程中及之后主从复合句节点都有机制判断连接是否超时，其意义在于：

如果主节点判断连接超时其会释放相应从节点的连接，从而释放各种资源否则无效的从节点仍会占用主节点的各种资源（输出缓冲区、带宽、连接等）；此外连接超时的判断可以让主节点更准确的知道当前有效从节点的个数，有助于保证数据安全（配合前媔讲到的min-slaves-to-write等参数）
如果从节点判断连接超时，则可以及时重新建立连接避免与主节点数据长期的不一致。

主从复合句复制超时判断的核心在于repl-timeout参数，该参数规定了超时时间的阈值（默认60s）对于主节点和从节点同时有效；主从复合句节点触发超时的条件分别如下：

主節点：每秒1次调用复制定时函数replicationCron()，在其中判断当前时间距离上次收到各个从节点REPLCONF ACK的时间是否超过了repl-timeout值，如果超过了则释放相应从节点的連接
从节点：从节点对超时的判断同样是在复制定时函数中判断，基本逻辑是：
- 如果当前处于连接建立阶段且距离上次收到主节点的信息的时间已超过repl-timeout，则释放与主节点的连接；
- 如果当前处于数据同步阶段且收到主节点的RDB文件的时间超时，则停止数据同步释放连接；
- 如果当前处于命令传播阶段，且距离上次收到主节点的PING命令或数据的时间已超过repl-timeout值则释放与主节点的连接。

下面介绍与复制阶段连接超时有关的一些实际问题：

数据同步阶段：在主从复合句节点进行全量复制bgsave时主节点需要首先fork子进程将当前数据保存到RDB文件中，然后再將RDB文件通过网络传输到从节点如果RDB文件过大，主节点在fork子进程+保存RDB文件时耗时过多可能会导致从节点长时间收不到数据而触发超时；此时从节点会重连主节点，然后再次全量复制再次超时，再次重连……这是个悲伤的循环为了避免这种情况的发生，除了注意Redis单机数據量不要过大另一方面就是适当增大repl-timeout值，具体的大小可以根据bgsave耗时来调整
命令传播阶段：如前所述，在该阶段主节点会向从节点发送PING命令频率由repl-ping-slave-period控制；该参数应明显小于repl-timeout值(后者至少是前者的几倍)。否则如果两个参数相等或接近，网络抖动导致个别PING命令丢失此时恰巧主节点也没有向从节点发送数据，则从节点很容易判断超时
慢查询导致的阻塞：如果主节点或从节点执行了一些慢查询（如keys *或者对大數据的hgetall等），导致服务器阻塞；阻塞期间无法响应复制连接中对方节点的请求可能导致复制超时。

Redis 高可用系列的第二弹：主从复合呴复制的核心内容已经讲解完毕了希望大家阅读完会有一点收获，另外如果大家觉得看完文章有帮助的话可以点赞，收藏微微表示一丅支持好让我能有动力继续写技术文章。

另外：我开了公众号【码农富哥】（id: coder2025）专注于写后端，服务端的原创干文持续更新手法文嶂，大家有兴趣也可以关注一下！

欢迎关注公众号：「码农富哥」致力于分享后端技术 (高并发架构，分布式集群系统消息队列中间件，网络微服务，Linux, TCP/IP, HTTP, MySQL, Redis), Python 等原创干货和面试指南！

持久化保证了即使redis服务重启也不會丢失数据因为redis服务重启后会将硬盘上持久化的数据恢复到内存中，但是当redis服务器的硬盘损坏了可能会导致数据丢失如果通过redis的主从複合句复制机制就可以避免这种单点故障，如下图：

主redis中的数据有两个副本（replication）即从redis1和从redis2即使一台redis服务器宕机其它两台redis服务也可以继续提供服务。
主redis中的数据和从redis上的数据保持实时同步当主redis写入数据时通过主从复合句复制机制会复制到两个从redis服务上。
只有一个主redis可以囿多个从redis。
主从复合句复制不会阻塞master在同步数据时，master 可以继续处理client 请求
一个redis可以即是主又是从如下图：

上边的配置说明当前该【从redis服務器】所对应的【主redis服务器】的IP是192.168.101.3，端口是6379如果主节点配置了requirepass，则还要更改

注意：主机一旦发生增删改操作那么从机会将数据同步到從机中，从机不能执行写操作如果想则需要进行相关配置

上面配置完之后我们在使用redis-cli客户端就能发现之前在master加的数据能直接get到了，同时峩们可以通过info replication命令查看主从复合句信息

slave node内部有个定时任务每秒检查是否有新的master node要连接和复制，如果发现就跟master node建立socket网络连接。

对于千兆網卡的机器，一般每秒传输100MB6G文件，很可能超过60s
master node在生成rdb时会将所有新的写命令缓存在内存中，在salve node保存了rdb之后再将新的写命令复制给salve node
slave node接收到rdb之后，清空自己的旧数据然后重新加载rdb到自己的内存中，同时基于旧的数据版本对外提供服务

rdb生成、rdb通过网络拷贝、slave旧数据的清理、slave aof rewrite很耗费时间。如果复制的数据量在4G~6G之间那么很可能全量复制时间消耗到1分半到2分钟。

如果全量复制过程中master-slave网络连接断掉，那么salve重噺连接master时会触发增量复制

master每次接收到写命令之后，现在内部写入数据然后异步发送给slave node

说明：slave不会过期key，只会等待master过期key如果master过期了一個key，或者通过LRU淘汰了一个key那么会模拟一条del命令发送给slave。

2、主从复合句复制的断点续传

从redis 2.8开始就支持主从复合句复制的断点续传，如果主从复合句复制过程中网络连接断掉了，那么可以接着上次复制的地方继续复制下去，而不是从头开始复制一份

id区分。比如如果master里媔本来有100w条数据slave中也是100w条，但此时master通过冷备份恢复到了80w条这时slave拿着offset等信息来同步数据了。这里就会出现问题了因为slave这里是要来异步複制的，但master整个数据都不一样了我们需要的是全量复制。run id不同就做全量复制如果需要不更改run

在项目中你要搞高并发的话，不可避免偠把底层的缓存搞得很好。我们知道如果想要通过mysql来实现高并发那么也是通过一系列复杂的分库分表。但我们比如订单系统这种事务偠求高的，QPS到几万也就比较高了要做一些电商的商品详情页，真正的超高并发QPS上十万，甚至是百万一秒钟百万的请求量。光是redis是不夠的但是redis是整个大型的缓存架构中，支撑高并发的架构里面非常重要的一个环节。首先你的底层的缓存中间件，缓存系统必须能夠支撑的起我们说的那种高并发，其次再经过良好的整体的缓存架构的设计（多级缓存架构、热点缓存），支撑真正的上十万甚至上百万的高并发。

如果redis要支撑超过10万+的并发那应该怎么做？单机的redis几乎不太可能说QPS超过10万+一般也就几万QPS，除非一些特殊情况比如你的機器性能特别好，配置特别高物理机，维护做的特别好而且你的整体的操作不是太复杂。更多的情况下我们采用的就是读写分离一般来说，对缓存一般都是用来支撑读高并发的，写的请求是比较少的可能写请求也就一秒钟几千，一两千大量的请求都是读。

架构莋成主从复合句架构一主多从，主负责写并且将数据同步到Slave节点，从节点负责读所有的读请求全部走从节点，这样就能达到10w+的QPS了並且水平扩容也简单，直接加Slave节点就好了

集群监控，负责监控redis master和slave进程是否正常工作
消息通知如果某个redis实例有故障，那么哨兵负责发送消息作为报警通知给管理员
配置中心如果故障转移发生了，通知client客户端新的master地址

哨兵本身也是分布式的作为一个哨兵集群去运行，互楿协同工作一般来说，哨兵至少需要3个实例来保证自己的健壮性。故障转移时判断一个master node是宕机了，需要大部分的哨兵都同意才行涉及到了分布式选举的问题。即使部分哨兵节点挂掉了哨兵集群还是能正常工作的，因为如果一个作为高可用机制重要组成部分的故障轉移系统本身是单点的那就很坑爹了。

目前主要采用的是sentinal 2版本sentinal 2相对于sentinal 1来说，重写了很多代码主要是让故障转移的机制和算法变得更加健壮和简单

说明：为什么redis哨兵集群只有2个节点无法正常工作？

如果哨兵集群仅仅部署了个2个哨兵实例quorum=1

master宕机，s1和s2中只要有1个哨兵认为master宕機就可以还行切换同时s1和s2中会选举出一个哨兵来执行故障转移。同时这个时候需要majority，也就是大多数哨兵都是运行的2个哨兵的majority（大多數节点）就是2（2的majority=2，3的majority=25的majority=3，4的majority=2）2个哨兵都运行着，就可以允许执行故障转移但是如果整个M1和S1运行的机器宕机了，那么哨兵只有1个了此时就没有majority来允许执行故障转移，虽然另外一台机器还有一个R1但是故障转移不会执行。

如果M1所在机器宕机了那么三个哨兵还剩下2个，S2和S3可以一致认为master宕机然后选举出一个来执行故障转移。同时3个哨兵的majority是2所以还剩下的2个哨兵运行着，就可以允许执行故障转移

1.数據丢失原因【主从复合句切换】

异步复制导致的数据丢失

脑裂，也就是说某个master所在机器突然脱离了正常的网络，跟其他slave机器不能连接泹是实际上master还运行着。此时哨兵可能就会认为master宕机了然后开启选举，将其他slave切换成了master这个时候，集群里就会有两个master也就是所谓的脑裂。此时虽然某个slave被切换成了master但是可能client还没来得及切换到新的master，还继续写向旧master的数据可能也丢失了因此旧master再次恢复的时候，会被作为┅个slave挂到新的master上去自己的数据会清空，重新从新的master复制数据

上面的配置是说：要求至少有1个slave，数据复制和同步的延迟不能超过10秒如果说一旦所有的slave，数据复制和同步的延迟都超过了10秒钟那么这个时候，master就不会再接收任何请求了上面两个配置可以减少异步复制和脑裂导致的数据丢失。

减少异步复制的数据丢失

有了min-slaves-max-lag这个配置就可以确保说，一旦slave复制数据和ack延时太长就认为可能master宕机后损失的数据太哆了，那么就拒绝写请求这样可以把master宕机时由于部分数据未同步到slave导致的数据丢失降低的可控范围内。

如果一个master出现了脑裂跟其他slave丢叻连接，那么上面两个配置可以确保说如果不能继续给指定数量的slave发送数据，而且slave超过10秒没有给自己ack消息那么就直接拒绝客户端的写請求。这样脑裂后的旧master就不会接受client的新数据也就避免了数据丢失。上面的配置就确保了如果跟任何一个slave丢了连接，在10秒后发现没有slave给洎己ack那么就拒绝新的写请求。因此在脑裂场景下最多就丢失10秒的数据。

补充：一般来说当master不在接收写请求时，我们的client要做降级处理client在自己内存中暂时缓存，尝试写其他的master或者是停顿一段时间再写同时，在client对外接收请求再做降级，做限流减慢请求涌入的速度。戓者client可能会采取将数据临时灌入一个kafka队列然后每隔10分钟去队列里面取一次，尝试重新发送master

sdown是主观宕机，就一个哨兵如果自己觉得一个master宕机了那么就是主观宕机；odown是客观宕机，如果quorum数量的哨兵都觉得一个master宕机了那么就是客观宕机。

2.哨兵集群的自动发现机制

跟master断开连接嘚时长

接下来会对slave进行排序

按照slave优先级进行排序slave priority（配置）越低，优先级就越高；
如果上面两个条件都相同那么选择一个run id比较小的那个slave。

每次一个哨兵要做主备切换首先需要quorum数量的哨兵认为odown，然后选举出一个哨兵来做切换这个哨兵还得得到majority（大多数）哨兵的授权，才能正式执行切换如果quorum < majority，比如5个哨兵majority就是3，quorum设置为2那么就3个哨兵授权就可以执行切换。但是如果quorum >= majority那么必须quorum数量的哨兵都授权，比如5個哨兵quorum是5，那么必须5个哨兵都同意授权才能执行切换。

epoch这就是一个version号，每次切换的version号都必须是唯一的

哨兵的配置文件（sentinel.conf）在redis解压嘚根目录下，每一个哨兵都可以去监控多个maser-slaves的主从复合句架构可能在公司中，为不同的项目部署了多个master-slaves的redis主从复合句集群，但是却使鼡相同的一套哨兵集群来监控不同的多个redis主从复合句集群。我们可以给每个redis主从复合句集群分配一个逻辑的名称【mymaster1mymaster2】

类似这种配置，來指定对一个master的监控给监控的master指定的一个名称，因为后面分布式集群架构里会讲解可以配置多个master做数据拆分。

（1）至少多少个哨兵要┅致同意master进程挂掉了，或者slave进程挂掉了或者要启动一个故障转移操作。

（2）quorum是用来识别故障的真正执行故障转移的时候，还是要在哨兵集群执行选举选举一个哨兵进程出来执行故障转移操作。

（3）假设有5个哨兵quorum设置了2，那么如果5个哨兵中的2个都认为master挂掉了；2个哨兵中的一个就会做一个选举选举一个哨兵出来，执行故障转移；如果5个哨兵中有3个哨兵都是运行的那么故障转移就会被允许执行。

新嘚master别切换之后同时有多少个slave被切换到去连接新master，重新做同步数字越低，花费的时间越多假设你的redis是1个master，4个slave然后master宕机了，4个slave中有1个切换成了master剩下3个slave就要挂到新的master上面去。这个时候如果parallel-syncs是1，那么3个slave一个一个地挂接到新的master上面去，1个挂接完而且从新的master sync完数据之后，再挂接下一个如果parallel-syncs是3，那么一次性就会把所有slave挂接到新的master上去

日志里会显示出来，每个哨兵都能去监控到对应的redis master并能够自动发现對应的slave。

哨兵之间互相会自动进行发现，用的就是之前说的pub/sub消息发布和订阅channel消息系统和机制。

说明：上述启动方式是测试时使用的茬生产环境上我们要使用后端启动，打开5000.conf添加如下内容（原本没有）

查看sentinel信息（没有本地的）

清理所有的master状态，我们看日志打印的内容（在redis_01上）：

我们发现出现+sdown字样识别出了master的宕机问题，然后出现+odown字样就是指定的quorum哨兵数量，都认为master宕机了我们再继续看下面的日志

哨兵就自动认为之前的master变成了slave了，但哨兵去探查了一下这个salve的状态认为它sdown了。我们在客户端再查看一下master

果然变成了redis_02节点同时我们看一下哨兵的配置文件，5000.conf

也被更改了！现在我们进行故障恢复再将旧的master重新启动，查看是否被哨兵自动切换成slave节点现在我们来看一下当前的slave狀态

我们看到当前是不能使用的，然后将旧的master重新启动我们看到如下日志：

哨兵自动将旧的master变为slave，挂接到新的master上面去而且也是可以使鼡的了。

如果Redis的读写请求量很大那么单個实例很有可能承担不了这么大的请求量，如何提高Redis的性能呢你也许已经想到了，可以部署多个副本节点业务采用读写分离的方式，紦读请求分担到多个副本节点上提高访问性能。要实现读写分离就必须部署多个副本，每个副本需要实时同步主节点的数据

Redis也提供叻完善的主从复合句复制机制，使用非常简单的命令就可以构建一个多副本节点的集群。

同时当主节点故障宕机时，我们可以把一个副本节点提升为主节点提高Redis的可用性。可见对于故障恢复，也依赖Redis的主从复合句复制它们都是Redis高可用的一部分。

这篇文章我们就来介绍一下Redis主从复合句复制流程和原理以及在复制过程中有可能产生的各种问题。

假设我们现在有一个节点A它经过写入一段时间的数据寫入后，内存中保存了一些数据

此时我们再部署一个节点B，需要让节点B成为节点A的数据副本并且之后与节点A保持实时同步，如何做呢

Redis提供了非常简单的命令：slaveof。我们只需要在节点B上执行以下命令就可以让节点B成为节点A的数据副本：

节点B就会自动与节点A建立数据同步，如果节点A的数据量不大等待片刻，就能看到节点B拥有与节点A相同的数据同时在节点A上产生的数据变更，也会实时同步到节点B上

通過这样简单的方式，我们可以非常方便地构建一个master-slave集群业务可以在master上进行写入，在slave上读取数据实现读写分离，提高访问性能

那么主從复合句节点的复制是如何进行的？下面我们就来分析其中的原理

为了方便下面讲解，我们这里把节点A叫做master节点节点B叫做slave节点。

当我們在slave上执行slaveof命令时这个复制流程会经过以下阶段：

master检查slave发来的runid和offset参数，决定是发送全量数据还是部分数据
如果slave是第一次与master同步或者master-slave断開复制太久，则进行全量同步
- master在后台生成RDB快照文件通过网络发给slave
- slave接收到RDB文件后，清空自己本地数据库

如果master-slave之前已经建立过数据同步只昰因为某些原因断开了复制，此时只同步部分数据
- master根据slave发来的数据位置offset只发送这个位置之后的数据给slave
- slave接收这些差异数据，更新自己的数據与maser保持一致
之后master产生的写入，都会传播一份给slaveslave与master保持实时同步

下面分别介绍全量同步和部分同步的详细流程。

当我们在节点B上执行slaveof命令后节点B会与节点A建立一个TCP连接，然后发送psync $runid $offset命令告知节点A需要开始同步数据。

这两个参数的具体含义如下：

offset：slave需要从哪个位置开始哃步数据

什么是runid在启动Redis实例时，Redis会为每个实例随机分配一个长度为40位的十六进制字符串用来标识实例的唯一性，也就是说runid就是这个實例的唯一标识。

之后master会在后台生成一个RDB快照文件

RDB文件生成之后，master把这个RDB文件通过网络发送给slaveslave收到RDB文件后，清空整个实例然后加载這个RDB数据到内存中，此时slave拥有了与master接近一致的数据

为什么是接近一致？因为master在生成RDB和slave加载RDB的过程是比较耗时的在这个过程中，master产生新嘚写入这些新写入的命令目前在slave上是没有执行的。这些命令master如何与slave保持一致呢

Redis会把这些增量数据写入到一个叫做**复制缓冲区（repl_baklog）**的地方暂存下来，这个复制缓冲区是一个固定大小的队列由配置参数repl-backlog-size决定，默认1MB可以通过配置文件修改它的大小。

由于是固定大小的队列所以如果这个缓冲区被写满，那么它之前的内容会被覆盖掉

注意：无论slave有多少个，master的复制缓冲区只有一份它实际上就是暂存master最近写叺的命令，供多个slave部分同步时使用

待slave加载RDB文件完成之后，master会把复制缓冲区的这些增量数据发送给slaveslave依次执行这些命令，就能保证与master拥有楿同的数据

之后master再收到的写命令，会实时传播给slave节点slave与master执行同样的命令，这样slave就可以与master保持实时数据的同步

如果在复制过程中，因為网络抖动或其他原因导致主从复合句连接断开，等故障恢复时slave是否需要重新同步master的数据呢？

在Redis的2.8版本之前确实是这么干的，每次主从复合句断开复制重新连接后，就会触发一次全量数据的同步

可见，这么做的代价是非常大的而且耗时耗力。后来在Redis在这方面进荇了改进在2.8版本之后，Redis支持部分同步数据

当主从复合句断开重新建立连接后，slave向master发送同步请求：psync $runid $offset因为之前slave在第一次全量同步时，已經记录下了master的runid并且slave也知道目前自己复制到了哪个位置offset。

这时slave就会告知master之前已经同步过数据了，这次只需要把offset这个位置之后的数据发送過来就可以了

master收到psync命令之后，检查slave发来的runid与自身的runid一致说明之前已经同步过数据，这次只需要同步部分数据即可

前面我们介绍了master自身会有一个复制缓冲区（repl-backlog），这个缓冲区暂存了最近写入的命令同时记录了这些命令的offset位置。此时master就会根据slave发来的这个offset在复制缓冲区中查询是否还保留着这个位置之后的数据

如果有，那么master给slave回复+continue表示这次只同步部分数据。之后master把复制缓冲区offset之后的数据给slave即可slave执行这些命令后就与master达到一致。

如果master复制缓冲区找不到offset之后的数据说明断开的时间太久，复制缓冲区的内容已经被新的内容覆盖了此时master只能觸发全量数据同步。

slave经过全量同步或部分同步后之后master实时产生的写入，是如何实时同步的

很简单，master每次执行完新的写入命令后也会紦这个命令实时地传播给slave，slave执行与master相同的操作就可以实时与master保持一致。

需要注意的是master传播给slave的命令是异步执行的，也就是说在master上写入後马上在slave上查询是有可能查不到的，因为异步执行存在一定的延迟

但是，由于这个buffer是占用Redis实例内存的所以不能无限大。所以Redis提供了控制buffer大小的参数限制：

对于slave的client默认的限制是，如果buffer达到了256MB或者达到64MB并持续了1分钟，那么master就会强制断开slave的连接

这个配置的大小在某些場景下，也会影响到主从复合句的数据同步我们下面会具体介绍到。

在命令传播阶段为了保证master-slave数据同步的稳定进行，Redis还设计了一些机淛维护这个复制链路这种机制主要通过心跳来完成，主要包括两方面：

同样在slave这边，它也会定时向master发送replconf ack $offset命令频率为每1秒一次，其中offset昰slave当前复制到的数据偏移量这么做的主要作用如下：

master检测slave丢失的命令：master根据slave发送的offset并与自己对比，如果发现slave发生了数据丢失master会重新发送丢失的数据，前提是master的复制缓冲区中还保留这些数据否则会触发全量同步
ack $offset让master知晓slave的情况，一般情况下我们不会开启这个配置，了解┅下就好

可见master和slave节点通过心跳机制共同维护它们之间数据同步的稳定性，并在同步过程中发生问题时可以及时自动恢复

我们可以可以茬master上执行info命令查看当前所有slave的同步情况：

通过这些信息，我们能看到slave与master的数据同步情况例如延迟了多大的数据，slave多久没有发送心跳给master鉯及master的复制缓冲区大小。

在整个数据复制的过程中故障是时有发生的，例如网络延迟过大、网络故障、机器故障等

所以在复制过程中，有一些情况需要我们格外注意必要时需要针对性进行参数配置的调整，否则同步过程中会发生很多意外问题

主要问题分为以下几个方面，下面依次来介绍

主从复合句断开复制后，重新复制触发了全量同步

上面我们有提到，主从复合句建立同步时优先检测是否可鉯尝试只同步部分数据，这种情况就是针对于之前已经建立好了复制链路只是因为故障导致临时断开，故障恢复后重新建立同步时为叻避免全量同步的资源消耗，Redis会优先尝试部分数据同步如果条件不符合，才会触发全量同步

这个判断依据就是在master上维护的复制缓冲区夶小，如果这个缓冲区配置的过小很有可能在主从复合句断开复制的这段时间内，master产生的写入导致复制缓冲区的数据被覆盖重新建立哃步时的slave需要同步的offset位置在master的缓冲区中找不到，那么此时就会触发全量同步

如何避免这种情况？解决方案就是适当调大复制缓冲区repl-backlog-size的大尛这个缓冲区的大小默认为1MB，如果实例写入量比较大可以针对性调大此配置。

但这个配置不能调的无限大因为它会额外占用内存空間。如果主从复合句断开复制的时间过长那么触发全量复制在所难免的，我们需要保证主从复合句节点的网络质量避免频繁断开复制嘚情况发生。

master写入量很大主从复合句断开复制？

主从复合句经过全量同步和部分同步后之后master产生了写入命令，会实时传播给slave节点如果在这个过程中发生了复制断开，那么一定是在这个过程中产生了问题我们来分析这个过程是如何处理命令传播的。

buffermaster产生写命令执行唍成后，会把这个命令写入到这个buffer中然后等待Redis的网络循环事件把buffer中数据通过Socket发送给slave，发送成功后master释放buffer中的内存。

如果master在写入量非常大嘚情况下可能存在以下情况会导致master的client output buffer内存持续增长：

主从复合句节点机器存在一定网络延迟（例如机器网卡负载比较高），master无法及时的紦数据发送给slave
slave由于一些原因无法及时处理master发来的命令（例如开启了AOF并实时刷盘磁盘IO负载高）

之后slave重新发送复制请求，但是以上原因可能依旧存在经过一段时间后又产生上述问题，主从复合句连接再次被断开周而复始，主从复合句频繁断开链接无法正常复制数据。

解決方案是适当调大client-output-buffer-limit的阈值，并且解决slave写入慢的情况保证master发给slave的数据可以很快得处理完成，这样才能避免频繁断开复制的问题

当主从複合句建立同步进行全量同步数据时，master会fork出一个子进程扫描全量数据写入到RDB文件中。

这个fork操作并不是没有代价的。fork在创建子进程时需要父进程拷贝一份内存页表给子进程，如果master占用的内存过大那么fork时需要拷贝的内存页表也会比较耗时，在完成fork之前Redis整个进程都会阻塞住，无法处理任何的请求所以业务会发现Redis突然变慢了，甚至发生超时的情况

我们可以执行info可以看到latest_fork_usec参数，单位微妙这就是最后一佽fork的耗时时间，我们可以根据这个时间来评估fork时间是否符合预期

对于这种情况，可以优化方案如下：

一定保证机器拥有足够的CPU资源和内存资源
单个Redis实例内存不要太大大实例拆分成小实例

通过以上方式避免fork引发的父进程长时间阻塞问题。

主从复合句全量同步数据时很慢

の前我们已经了解到，主从复合句全量复制会经过3个阶段：

slave清空数据库加载RDB文件到内存

如果发现全量同步数据非常耗时，我们根据以上階段来分析原因：

master实例数据比较大并且机器的CPU负载较高时，在生成RDB时耗大量CPU资源导致RDB生成很慢
master和slave的机器网络带宽被打满，导致master发送给slave嘚RDB文件网络传输时变慢
slave机器内存不够用但开启了swap机制，导致内存不足以加载RDB文件数据被写入到磁盘上，导致数据加载变慢

通过以上情況可以看出主从复合句复制时，会消耗CPU、内存、网卡带宽各方面的资源我们需要合理规划服务器资源，保证资源的充足并且针对大實例进行拆分，能避免很多复制中的问题

这篇文章我们介绍了Redis主从复合句复制的流程和工作原理，以及在复制过程中可能引发的问题

雖然搭建一个复制集群很简单，但其中涉及到的细节也很多Redis在复制过程也可能存在各种问题，我们需要设置合适的配置参数和合理运维Redis才能保证Redis有稳定可用的副本数据，为我们的高可用提供基础

关注我的公众浩《老男孩的架构路》领取一线大厂Java面试题总结+各知识点学習思维导图+一份400页pdf文档的Java独家面试手册！

这些资料的内容都是面试时面试官必问的知识点，篇章包括了很多知识点其中包括了有基础知識、Java集合、JVM、多线程并发、spring原理、微服务、Netty 与RPC 、Kafka、日记、设计模式、Java算法、数据库、Zookeeper、分布式缓存、数据结构等等。