七叶笔记 » 数据库 » Redis主从集群切换数据丢失的解决方案

Redis主从集群切换数据丢失的解决方案

分类: 数据库 | 浏览: 228

min-slaves-to-write默认情况下是0，min-slaves-max-lag默认情况下是10。

以上面配置为例，这两个参数表示至少有1个salve的与master的同步复制延迟不能超过10s，一旦所有的slave复制和同步的延迟达到了10s，那么此时master就不会接受任何请求。

我们可以减小min-slaves-max-lag参数的值，这样就可以避免在发生故障时大量的数据丢失，一旦发现延迟超过了该值就不会往master中写入数据。

那么对于client，我们可以采取降级措施，将数据暂时写入本地缓存和磁盘中，在一段时间后重新写入master来保证数据不丢失；也可以将数据写入kafka消息队列，隔一段时间去消费kafka中的数据。

通过上面两个参数的设置我们尽可能的减少数据的丢失，具体的值还需要在特定的环境下进行测试设置。

补充：Redis Cluster 会丢数据吗？

Redis Cluster 不保证强一致性，在一些特殊场景，客户端即使收到了写入确认，还是可能丢数据的。

场景1：异步复制

client 写入 master B

master B 回复 OK

master B 同步至 slave B1 B2 B3

B 没有等待 B1 B2 B3 的确认就回复了 client，如果在 slave 同步完成之前，master 宕机了，其中一个 slave 会被选为 master，这时之前 client 写入的数据就丢了。

wait 命令可以增强这种场景的数据安全性。

wait 会阻塞当前 client 直到之前的写操作被指定数量的 slave 同步成功。

wait 可以提高数据的安全性，但并不保证强一致性。

因为即使使用了这种同步复制方式，也存在特殊情况：一个没有完成同步的 slave 被选举为了 master。

场景2：网络分区

6个节点 A, B, C, A1, B1, C1，3个master，3个slave，还有一个client，Z1。

发生网络分区之后，形成了2个区，A, C, A1, B1, C1 和 B Z1。

这时 Z1 还是可以向 B 写入的，如果短时间内分区就恢复了，那就没问题，整个集群继续正常工作，但如果时间一长，B1 就会成为所在分区的 master，Z1 写入 B 的数据就丢了。

maximum window（最大时间窗口）可以减少数据损失，可以控制 Z1 向 B 写入的总数：

过去一定时间后，分区的多数边就会进行选举，slave 成为 master，这时分区少数边的 master 就会拒绝接收写请求。

这个时间量是非常重要的，称为节点过期时间。

一个 master 在达到过期时间后，就被认为是故障的，进入 error 状态，停止接收写请求，可以被 slave 取代。

小结

Redis Cluster 不保证强一致性，存在丢失数据的场景：

异步复制

在 master 写成功，但 slave 同步完成之前，master 宕机了，slave 变为 master，数据丢失。

wait 命令可以给为同步复制，但也无法完全保证数据不丢，而且影响性能。

网络分区

分区后一个 master 继续接收写请求，分区恢复后这个 master 可能会变为 slave，那么之前写入的数据就丢了。

可以设置节点过期时间，减少 master 在分区期间接收的写入数量，降低数据丢失的损失。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持七叶笔记。如有错误或未考虑完全的地方，望不吝赐教。

七叶笔记