干货!如何实现一个分布式定时器

作者:刘若愚 腾讯WXG后台开发工程师
导语定时器(Timer)是一种在业务开发中常用的组件,主要用在执行延时通知任务上 。本文以笔者在工作中的实践作为基础,介绍如何使用平时部门最常用的组件快速实现一个业务常用的分布式定时器服务 。同时介绍了过程中遇到问题的一些解决方案,希望能够给类似场景提供一些解决思路 。
1.什么是定时器定时器(Timer)是一种在指定时间开始执行某一任务的工具(也有周期性反复执行某一任务的Timer,我们这里暂不讨论) 。它常常与延迟队列这一概念关联 。那么在什么场景下我才需要使用定时器呢?
我们先看看以下业务场景:

  • 当订单一直处于未支付状态时,如何及时地关闭订单,并退还库存?
  • 如何定期检查处于退款状态的订单是否已经退款成功?
  • 新创建店铺,N天内没有上传商品,系统如何知道该信息,并发送激活短信?
为了解决以上问题,最简单直接的办法就是定时去扫表 。每个业务都要维护一个自己的扫表逻辑 。当业务越来越多时,我们会发现扫表部分的逻辑会非常类似 。我们可以考虑将这部分逻辑从具体的业务逻辑里面抽出来,变成一个公共的部分 。这个时候定时器就出场了 。
2.定时器的本质一个定时器本质上是这样的一个数据结构:deadline越近的任务拥有越高优先级,提供以下几种基本操作:
  1. Add 新增任务;
  2. Delete 删除任务;
  3. Run 执行到期的任务/到期通知对应业务处理;
  4. Update 更新到期时间 (可选) 。
Run通常有两种工作方式: 1.轮询 每隔一个时间片就去查找哪些任务已经到期; 2.睡眠/唤醒 不停地查找deadline最近的任务,如到期则执行;否则sleep直到其到期 。在sleep期间,如果有任务被Add或Delete,则deadline最近的任务有可能改变,线程会被唤醒并重新进行1的逻辑 。
它的设计目标通常包含以下几点要求:
  1. 支持任务提交(消息发布)、任务删除、任务通知(消息订阅)等基本功能 。
  2. 消息传输可靠性:消息进入延迟队列以后,保证至少被消费一次(到期通知保证At-least-once,追求Exactly-once) 。
  3. 数据可靠性:数据需要持久化,防止丢失 。
  4. 高可用性:至少得支持多实例部署 。挂掉一个实例后,还有后备实例继续提供服务,可横向扩展 。
  5. 实时性:尽最大努力准时交付信息,允许存在一定的时间误差,误差范围可控 。
3.数据结构下面我们谈谈定时器的数据结构 。定时器通常与延迟队列密不可分,延时队列是什么?顾名思义它是一种带有延迟功能的消息队列 。而延迟队列底层通常可以采用以下几种数据结构之一来实现:
  1. 有序链表,这个最直观,最好理解 。
  2. 堆,应用实例如JAVA JDK中的DelayQueue、Go内置的定时器等 。
  3. 时间轮/多级时间轮,应用实例如linux内核定时器、Netty工具类HashedWheelTimer、Kafka内部定时器等 。
这里重点介绍一下时间轮(TimeWheel) 。一个时间轮是一个环形结构,可以想象成时钟,分为很多格子,一个格子代表一段时间(越短Timer精度越高),并用一个List保存在该格子上到期的所有任务,同时一个指针随着时间流逝一格一格转动,并执行对应List中所有到期的任务 。任务通过取模决定应该放入哪个格子 。示意图如下所示:
干货!如何实现一个分布式定时器

文章插图
时间轮
如果任务的时间跨度很大,数量也多,传统的单轮时间轮会造成任务的round很大,单个格子的任务List很长,并会维持很长一段时间 。这时可将Wheel按时间粒度分级(与水表的思想很像),示意图如下所示:
干货!如何实现一个分布式定时器

文章插图
多级时间轮
时间轮是一种比较优雅的实现方式,且如果采用多级时间轮时其效率也是比较高的 。
4.业界实现方案业界对于定时器/延时队列的工程实践,则通常基于以下几种方案来实现:
  1. 基于redis ZSet实现 。
  2. 采用某些自带延时选项的队列实现,如RabbitMQ、Beanstalkd、腾讯TDMQ等 。
  3. 基于Timing-Wheel时间轮算法实现 。
5.方案详述介绍完定时器的背景知识,接下来看下我们系统的实现 。我们先看一下需求背景 。在我们组的实际业务中,有延迟任务的需求 。一种典型的应用场景是:商户发起扣费请求后,立刻为用户下发扣费前通知,24小时后完成扣费;或者发券给用户,3天后通知用户券过期 。基于这种需求背景,我们引出了定时器的开发需求 。


推荐阅读