本篇文章首先简单介绍了 TCP keepalive 的机制以及运用场景 。接着介绍了 Go 语言中如何开启与设置 TCP keepalive 。但是由于 Go 语言最上层的接口不够灵活,从而引出在 Go 语言中如何使用系统调用设置 TCP 连接的文件描述符属性 。接着原作者就掉坑里了 。。。最后介绍了在Go 1.11之后的版本如何使用新的接口设置 TCP 连接的文件描述符属性 。为了更适合中文阅读,我对文章做了些增删,并没有逐字翻译 。原文地址:Notes on TCP keepalive in Go | TheNotExpert[1] 。我有一个供客户端连接的 TCP 服务端程序 。它十分简单 。但问题是,所有的客户端都使用手机移动网络并且网络总是不稳定 。经常丢失连接却没有通过FIN或者RST包通知服务端 。服务端保持着这个虚连接并且认为这个客户端仍然在线,而事实上却不是 。
我的首个解决方案是等待一小会;如果某个客户端在给定的时间端没有发送任何数据,则在服务端关闭这个连接(值得一提,SetDeadline[2]方法十分好用,当超时时它在conn.Read上返回i/o超时错误) 。但是以下情况需要考虑:我不能把超时设置得过小,因为客户端生成数据的速度可能很慢,而且也不能把超时设置得过大,因为这会使我误判客户端的在线状态,而事实上我需要一定的精度 。
我的想法是 ping 客户端 。但是我不想给客户端发送它不需要的垃圾数据 。而且,客户端的代码也不由我说了算,所以我也不确定如果我发送一些奇怪的数据给客户端,客户端会如何表现 。
TCP-keepalive — 一个轻量级的 pingTCP keepalive发送没有(或者几乎没有)包体负载的 TCP 报文给对端,并且对端会回复 keepalive ACK确认包 。它不是 TCP 标准的一部分(尽管在RFC1122[3]中有相关的描述),并且,它总是默认被禁用 。尽管如此,大部分现代的 TCP 协议栈都支持这个特性 。
在它的大部分实现中,简单来说,有三个主要参数:
- Idle time(空闲时间) - 接收一个包后,等待多长时间发出一个 ping 包 。
- Retry interval(重试间隔时间) - 如果发送了一个 ping,但是没有收到对端回复的ACK,在重试间隔时间之后重新发送 ping 。
- Ping amount(重试次数) - 重试次数(没有收到对端ACK)达到多少次后,我们认为这个连接不存活了 。
服务端收到客户端的一包应用层数据 。然后客户端不再发送任何数据 。服务端等待 30 秒 。然后发送一个 ping 给客户端 。如果服务端收到了ACK,则服务端等待另一个 30 秒,再次发送 ping;如果在这 30 秒内服务端收到了数据,则 30 秒的定时器被重置 。
如果服务端没有收到ACK,等待 5 秒后再次发送 ping 。如果再过 5 秒还是没有收到回复?发送最后一个 ping 并等待最后一个 5 秒(是的,在最后一个 ping 也需要等待重试间隔时间) 。然后我们认为这个连接超时了并且在服务端断开它 。
默认值据说 Window 系统在发送 keepalive ping 之前默认等待 2 小时 。linux 下获取默认值十分简单,就像此处 3.1.1 节[4]描述的这样 。
# Idle timecat /proc/sys/net/ipv4/tcp_keepalive_time# Retry intervalcat /proc/sys/net/ipv4/tcp_keepalive_intvl# Ping amountcat /proc/sys/net/ipv4/tcp_keepalive_probes在 Go 语言中如何设置?由于我最近使用 Go 语言比较多,我需要在 Go 语言中运用 TCP keepalive 。
讨论开始之前需要说明,以下内容适用于 Linux 。我不是百分百确定它是否适用于 OSX,但我几乎可以肯定它不适用于 windows 。
连接的特殊类型首先,我注意到我在服务端程序中只使用了net.Conn[5]类型 。但是它并不管用,它缺少我们需要的特定方法 。我们需要TCPConn[6]类型 。
这意味着,我们需要使用ListenTCP[7]和AcceptTCP[8]而不是Listen[9]和Accept[10](它们的调用方式有区别,ListenTCP使用结构体而不是字符串来表示地址 。我们调用方式大概会像这样:ListenTCP("tcp", &net.TCPAddr{Port: myClientPort}) 。如果你不特别指定的话,IP 的默认值为0.0.0.0) 。之后它会返回我们需要的类型TCPConn 。
Go 语言提供的方法如果你翻看文档可能会注意到这两个相关的方法:SetKeepAlive[11]和SetKeepAlivePeriod[12] 。func (c *TCPConn) SetKeepAlive(keepalive bool) error的调用方式十分简单:传入true从而打开 TCP keepalive 机制 。
但是接下来的func (c *TCPConn) SetKeepAlivePeriod(d time.Duration) error就有些令人困惑了 。我们用它究竟设置的是什么?答案可以在这篇文章[13](好文章,推荐阅读)中找到:它同时设置了空闲时间和重试间隔时间 。而重试间隔次数则使用系统的默认值 。所以如果我设置5 * time.Second 。那么它可能是等待 5 秒钟,发送 ping 并等待另一个 5 秒 。并且 8 次重试(取决于系统设置) 。而我需要更大的灵活性,设置得更精准 。
推荐阅读
- 从淘宝MySQL数据库经典案例来看innodb如何设计主键索引
- mysql在线修改表结构,如何避免锁表?
- 如何选择双线虚拟主机托管服务商?
- 网络安全常用术语,你都清楚吗?
- 监控系统如何做埋点,监控数据库和HTTP请求
- 如何辨识好春茶
- 好玩的DOS命令,你知道吗?
- 如何在Go语言中使用Websockets:最佳工具与行动指南
- 淘宝店铺如何申请 淘宝企业店铺注册流程
- 如何科学合理地喝冷饮