热乎的，线上问题排查，拿去面试用！

敖丙

相信大家面试的时候都会被问到是否有过线上排查问题的经历。

今天我就给大家分享个热乎的，好吧也不热了，已经过了快两周了，哈哈哈，不过不影响。

我把这次问题的前因后果都说清楚，大家可以直接当做自己的经历拿去面试用，不用跟我客气。

开始咱们的表演。

那是一个阳光明媚的早晨，我却拖着疲惫的身躯来公司上班。

一到公司，屁股还没坐热，一个钉钉就发了过来：“线上连接池爆了！”

我一听麻了，啥都不用想，当机立断直接重启大法，稳如老狗。

好了，一切恢复正常。

全文完。

哈哈，开个玩笑，不过重启之后应用确实是恢复了正常，说明是某个突发的情况导致连接池爆了。

既然线上已经止损了，我们就可以安心的来排查排查这个问题。

连接池满无非就是...连接都被占用了，一般有两种情况会导致连接池满了：

很多长事务，执行的慢，导致长时间占用连接，然后别的请求都hang住了
很多短事务，执行的快，但是并发太高，即使时间短，但是架不住量大，得得得得得的就堵住了

这次事故产生的原因就是第二种情况！

DBA 当时发来一条 sql，说就是这条 sql 被频繁地执行。

我从 kibana 上面搜索了一下这条语句的执行情况，发现其实不止早上8点多有高峰，凌晨竟然有更高峰！然后再看看这个 sql 执行的频率，这时间排的整整齐齐的，一丝都不带变的。

并且这条 sql 也不复杂，就是一个带主键的单表查询，表也不会很大。

所以我断定这次突发的情况就是：高并发下频繁地请求数据库导致的

那现在问题来了，为啥在某个时候会频繁的请求这条 sql ？是人性的扭曲还是道德的沦丧？

我直接定位了这条 sql 的请求代码，发现这个查询其实是先走缓存，缓存找不到才会去查数据库。

我仔细看了看代码，确定了这个业务逻辑是用来给前端展示任务进度的。

就是后台会跑一个任务，前端需要实时展示一个进度条，这样用户使用的时候才不会干着急。

我和前端同事确认了一下，按理前端应该 2s 才会请求一次进度，所以即使是直接查询数据库，也不至于一个用户如此高频地调用请求。

所以我先甩了个锅，你前端代码有问题，并没有遵循 2s 去查，快去看看代码！

然后我继续查询为啥这个缓存会消失的问题。

按理来说，具体逻辑是这样的：

用户触发任务，会塞入进度为 0 的值至缓存中，同时更新任务的状态至数据库。
缓存的过期时间我设置了一天
后台任务在执行的时候会实时更新进度
前端调用接口查询进度

按照这个逻辑，缓存不可能在查询的时候不存在的啊！

然后我就开始疑神疑鬼了，难道是 redis 抽了把这个 key 删了？不至于啊看了看缓存负载也不高。

难道是调用的 redis client 接口有 bug？过期时间没给我整对？

然后我模拟了一下，执行了一次任务，查询了一下缓存里的进度，我直接好家伙！

可以看到过期时间竟然只有 5 分钟？我明明设置的是一天啊！

我兴致勃勃地深入了调用的 redis client 源码，想着好家伙，来素材了难道！

看了半天，我反应了过来，觉得不可能有问题，要有问题不应该只有这个功能会出现这个情况，别的早都爆了。

所以我又把目光移向了更新进度的那个后台任务！是不是这个 b 把缓存的过期时间改了？

由于这个任务不是我写的，于是我就去找了负责这个任务的同事，果不其然！

他执行任务更新进度的时候，过期时间设置的值都为 5 分钟！

伪代码如下：

while(任务没结束) {
 执行逻辑
 更新缓存中的任务进度++，设置过期时间为5分钟
}

他这样的设置过期时间也没毛病，因为当任务结束了也就是进度到 100% 了之后，不会再有获取任务进度的行为，所以 5 分钟就让它过期可以的。

而我之所以设置 1 天，是想着如果发生点啥问题可以保留一下案发现场的数据看看。

那按照这个逻辑看下来，应该是没问题的，为啥会发生这个情况？

我猜想了一下，心里有了个 B 树。

我问他这个任务是不是有可能会有阻塞的情况，导致超过 5 分钟才会更新缓存，这样在这个阻塞时间内，前 5 分钟更新的缓存就过期了，缓存里就没这个键了，此时的查询就会直接命中数据库，也就重现了上面的那个情况了！

再来看下伪代码：

while(任务没结束) {
 //有时候执行的时长超过了5分钟，缓存已过期
 执行逻辑 
 更新缓存中的任务进度++，设置过期时间为5分钟
}

他回答到有可能，因为这个任务会频繁调用第三方的接口，并且会包含一些很复杂的合并逻辑，所以有可能超过5分钟才会继续更新缓存。

好了，终于破案了！这也解释了为什么这个状况是偶发的，因为第三方接口是不是会不稳定，就可能阻塞超过了五分钟。

总结一下:

前端代码有 bug ，导致频繁查询接口（相当于攻击的频率了）
后端任务更新缓存的过期时间为 5 分钟，但由于业务比较复杂且第三方接口不稳定，可能处理逻辑耗费的时间为 6 分钟，导致上一次更新的缓存已经过期，使得中间有一段缓存空缺的时间
由于缓存空缺，且前端频繁查询，两者合一导致频繁查询数据库
所以连接池爆了

解决办法也很简单：让前端排查下代码的问题然后修复下，并且也将缓存过期的时间延长至10分钟，一阶段任务的执行时间几乎不可能超过 10 分钟。

最后

好了，讲完了，这次的问题不难排查，根据对应的现象定位到相应的代码，然后再进行前后端业务场景的分析即可。

其实所有的排查都是如此，先止损（看情况不妙就得先重启），定位代码，分析情况。

有些难排查的得打 log，有些难重现的还得持续观察好几天。

虽说出了问题总是不好的，但是大家要把握还这样的机会，及时记录，这都是以后的谈资。

继续滑动看下一个