干货 TCP/IP加速原理详解 _TCP

请先看下这个case.
对某一个key value应用，从网卡接收数据包到应用层处理，再把数据发送出去，整个系统资源消耗情况如下：

文章插图

可以看出，Sockets接口+TCP是系统瓶颈。
根据下图模型，瓶颈在于TCP（包括sockets接口）。

文章插图

要想提升系统吞吐量，必须要优化TCP 。
由于网络延迟的存在，对用户体验影响更大的是如何快速传递数据到客户端，而这属于流量优化的范畴。
本文讲述如何优化TCP性能和TCP数据传递。
1、什么是TCP加速
引用百度百科的定义：

文章插图

主流的TCP加速方式主要有：基于流量的加速传递和数据包处理性能优化。
基于流量的方式主要通过修改拥塞控制算法来达到快速传递数据包的目的。
数据包处理性能优化包括内核优化、TCP offload和基于用户态TCP协议的方式。这些方式可用于优化数据包处理，从而提升系统的吞吐量。
2、基于流量的TCP加速方式
2.1 TCP双边加速
TCP双边加速需要在TCP连接的两端部署硬件设备或安装软件。
双边加速的优点是可以利用压缩等技术进一步提升TCP传输效率，缺点是部署麻烦。
双边加速一般应用于公司不同分支之间的远距离访问。
下图是双边加速的一个例子。TCP加速设备之间采用SCTP的协议进行交互，而原本TCP对端跟TCP加速设备之间则采用常规的TCP协议进行交互。这种透明代理的方式方便了TCP加速设备之间采用特殊的方式来加速。

文章插图

【干货 TCP/IP加速原理详解】2.2 单边加速
TCP单边加速只需要在在TCP的一端部署软件或设备，达到提升TCP快速传输数据的目的。
绝大部分TCP单边加速都是通过修改TCP的拥塞控制算法来实现。
下图显示了某商用化产品的单边加速情况，数据包的发送很暴力，并没有慢启动过程。这种无视网络状况发送数据包的方式，大部分场景下确实能够提升性能，但这样的性能提升方式其实是抢占了互联网带宽资源，就像高速公路走应急车道一样。

文章插图

近几年出现的google拥塞控制算法BBR可以看成是单边加速的一种。

文章插图

上图展示了相对于传统拥塞控制算法CUBIC，BBR算法在网络丢包情况下仍然表现优异，原因在于BBR算法摒弃丢包作为拥塞控制的直接反馈因素，通过实时计算带宽和最小RTT来决定发送速率和窗口大小。
在移动应用场合，大部分网络丢包并不是由于路由器网络拥塞导致，因此在移动场合，BBR算法具有更好的适应性。
在linux内核4.9以上版本（不包括Docker环境），使用BBR算法，一般只需要在sysctl.conf文件加上下面两句：

文章插图

然后执行sysctl -p使其生效。
TCP单边加速的优点是只需要在一侧进行部署，缺点是无法直接利用压缩等功能，而且大都会破坏互联网的公平性。
3、内核优化
3.1 纯内核优化
根据Wikipedia内容：

文章插图

我们得知，内核需要根据实际场景进行优化，不能一概而论。合理优化，可以提升性能很多（有时能够提升10倍），但如果盲目优化，性能反而下降。
当今的内核，在大部分场景下，TCP buffer能够自动调整buffer大小来匹配传输，所以在内核方面需要优化的地方就是选择合适的拥塞控制算法。
下面是Linux默认算法CUBIC和BBR算法在丢包情况下的对比情况：

文章插图

在丢包情况下，BBR所受影响没有Linux TCP默认算法CUBIC那么大，而且在20%以下的丢包率情况下性能远超CUBIC 。一般建议在非网络拥塞导致丢包的场合使用BBR算法，例如移动应用。
对于带宽比较大，RTT时间比较长的应用场景，可以参考。
3.2 Dedicated fast path
由于内核处理TCP是通用的处理方式，不同的场景，执行的路径是不一样的，针对某些场景做特殊的优化，可以大大提升TCP的处理性能。