PD leader 切换耗时分析

2020-02-19

TiDB

本文首发在AskTUG.com。

我们知道，TiDB 集群中的多个 PD 提供的服务的方式是选出一个 PD 作为 leader 来提供服务的，当 leader 出现故障或者网络隔离后，其余的节点会自动通过 raft 选出新的 leader 继续服务。

从旧 leader 故障，到新 leader 选出并开始提供服务，这个过程服务是不可用的（比如 TSO 服务不可用，导致事务被 block），所以有必要分析这个过程的耗时并尽量使其缩短。

值得注意的是，PD 的配置有个相关的参数叫 lease，也就是 leader 的租约期限，默认值是 3s。那么，是否 leader 切换的耗时就是 3 秒呢？

实际我们观察到的往往比这个配置值要长不少，可能要 10 多秒甚至好几十秒，下面我们就来分析一下，时间都去哪儿了。

流程分析

1. etcd Leader 选举

PD 的 leader 选举并非自己实现 raft，而是直接内嵌了 embedded etcd，然后基于 etcd 提供的 lease 机制来实现 leader 选举。

内嵌 etcd 的好处是部署上比较简单，但是也带来了负面效果：如果 etcd 的 leader 在故障的节点上，PD 需要先等 etcd 选举出 leader 并恢复服务。

PD 配置中的 election-interval 用于控制 etcd 的选举超时时间，默认配置也是 3s。通常情况下，这一步耗时约为 3s，如果选举时出现分票的情况，可能还会稍长一些。

2. PD leader lease 过期

PD 竞选 leader 的机制是抢占式地往 etcd 的特定的 leader key 写入自己的 member id，并向 etcd 注册 lease。只要 leader 在线，会不断地更新 lease，也就能维持自己的 leader 角色。一旦发生故障或者隔离，etcd 的 LeaseManager 会在 lease 过期后删除这个 key，其他 PD 节点 watch 到 leader key 被删除之后会尝试把自己注册成新的 leader。

etcd 所管理的 lease 是在内存中倒计时的，不会实时地把剩余时间写入 raft 状态机，而是只存放了 TTL 信息。这带来一个问题，当 etcd leader 故障，新的节点成为 leader 后，无法得知之前的 lease 消耗了多少了，只能从头开始倒计时。而且 etcd 要恢复 leasor 时还会多加一个 Election timeout，（这里不太理解，可能是出于某种安全性的考虑？）

// promote lessor when the local member is leader and finished
// applying all entries from the last term.
if s.isLeader() {
    s.lessor.Promote(s.Cfg.electionTimeout())
}

这样一来，TTL+electionTimeout 至少就有 6 秒了。实际测试这一步大约耗时在 6-8s。

3. PD 竞选 leader

当 PD watch 到 leader key 被 lease manager 删掉之后，则进入竞选状态，尝试将 leader key 设为自己的 member ID 并设置 lease。这一步通常很快就能完成。

4. TSO 时钟同步

PD 竞选成功后不能立即开始服务，需要确保分配的 ts 不能小于之前 leader 分配的 ts。首先 PD 会从 etcd 读出上一个 leader 可能分配过的最大 ts，接着检查本地时钟确保大于之前的 ts（如果不同 PD 之间时钟不同步，会需要 sleep 等待），最后再把当前时间+3s（可通过 tso-save-interval 调整）作为新的“可以分配的最大 ts” 持久化 etcd。

这一步的时间主要取决于时钟不同步的程度，如果正常开启 ntp 的话很快就能完成。

5. 元信息加载

除了 TSO，PD 还要为 TiDB 提供 Region 信息查询的功能。因此，PD 在开始服务之前，需要把所有 Regoin 元信息加载进内存。

这一步的时间主要跟 Region 的数量相关，如果集群规模不大对整体耗时的影响比较小，但是对于几百万 Region 的大集群，可能会需要长达几十秒。

PD leader 切换耗时分析

2020-02-19

流程分析

相关优化

Related

给TiDB（MySQL）写一个代理网关

引入数据库网关来优化TiDB Cloud服务运营成本的故事，以及处理MySQL协议的糟心细节

TrueTime和原子钟

2021-02-10

价值6万元的TiDB Hackathon创意

2020-12-17