雷锋网|星云 Clustar 首席科学家胡水海：GPU 在联邦机器学习中的探索( 四 )

其中，数据中心内通信场景的主要挑战是高速网络时代如何加速联邦学习通信；而跨区域通信场景的主要挑战是如何在高延迟、高丢包率网络环境下加速联邦学习通信。针对场景一带来的挑战，我们采用的解决方案是通过RDMA网络技术优化两点间通信，然后通过动态参数聚合模型优化多点间通信来解决。

本文插图

在这里也提一下数据传输的背景，现在正处在数据中心高速网络时代，如上图所示，数据中心网络带宽近年来高速增长， 100G ， 200G网络对于大规模商用数据中心来说，已经非常普遍。当然，网络带宽的高速增长也对通信带来了巨大挑战！10-100倍的带宽增长带来了三个问题，第一，收发两端相同时间需要处理10-100x的网络数据包，第二，网络突发流量现象变得更加严重，第三，网络流完成时间大大减少意味着拥塞控制需要更快响应。

本文插图

【雷锋网|星云 Clustar 首席科学家胡水海：GPU 在联邦机器学习中的探索】传统的TCP网络由于存在CPU负载高、端处理延迟大以及吞吐量瓶颈等几个问题，不太适用于高速网络。所以在高速网络下， RDMA取代TCP已经成为了一个趋势。具体表现在：通过内核旁路以及将传输层卸载到网卡硬件上， RDMA能实现高吞吐、低时延、低CPU负载的两点间通信，非常适合用于加速联邦学习数据中心内的通信。

本文插图

但是要将RDMA应用于联邦学习数据中心内通信，我们还需要解决GPU跟RDMA网卡之间高效协作的问题。我们注意到GPU与RDMA网卡之间的通信存在从GPU到内存以及从内存到网卡的多次数据拷贝。这会增大传输延迟,降低吞吐量和浪费CPU 。

本文插图

为了解决这一问题，我们在联邦学习通信中引入了英伟达的GPU-Direct-RDMA技术，实现了GPU和RDMA网卡之间的直接数据拷贝。一方面通信吞吐量从20G提升到了100G ，另一方面也将传输延迟最多降低了1000倍。

本文插图

最后我们评估了GRDMA能为联邦学习带来性能提升的程度，对于AlexNet和VGG16两种模型，分别测试了他们在TCP和GRDMA两种网络下的训练效率。初步的测试结果如上图显示，使用GRDMA分别带来了超过60%和超过50%的训练性能提升。

本文插图

关于优化联邦学习多点间通信， ParameterServer和RingAllreduce是目前使用最广泛的两种参数聚合模型。但他们都分别有一些缺点。 ParameterServer的问题是存在多个worker节点给单个server节点发送参数的多对一通信方式。在超售网络下，这种通信方式的性能会因为链路拥塞而大幅度下降。 RingAllreduce的问题是存在一个很长的通信依赖链。一旦某一跳发生阻塞， RingAllreduce的长依赖链会使整个聚合任务停滞。

本文插图

对于跨区域通信场景问题，首先有以下几点观察，第一，随着物理距离增加，跨区域通信时间在联邦学习中的时间占比越来越大；第二，跨区域主干网具有高延迟、高丢包率等特征，丢包侦测与丢包恢复代价很大；第三，机器学习模型训练可以容忍一定的丢包率，即我们通过实验发现，当丢包率小于15%时，即使不做丢包恢复，模型收敛所需要的轮次并不会变多。另外我们还发现，当丢包率低于15%时，不做丢包重传能显著减少模型训练时间。

雷锋网|星云 Clustar 首席科学家胡水海：GPU 在联邦机器学习中的探索( 四 )

推荐阅读

【汽车冷知识】电动航空座椅/升降橱柜//旋转马桶，五一房车展：新款飞翔T型房车

大模型Kimi火了，长文本“卷”出新高度

[坦言]收入提高了？滴滴司机坦言：因为平台这波操作，现在收入

游戏大妹子|金角刚被转到辅助位置，如今宣布回归AD位，BLG无人可用

何鸿燊逝世，旗下上市公司股价暴涨超20%

英语老司机|怒怼特朗普的人走了…“中国外交天团”换人了！发言人耿爽卸任

低龄老人挤爆老年大学娱乐班最爱上什麽课？

环球火力配30mm火神机炮，发动机被打烂都能返航，全球最彪悍的攻击机

威宁|网传大山深处出现诡异“龙吟”声？调查结果来了！

8个老司机不愿意分享的倒车技巧，简单实用！

“我想要的一直都是被坚定的选择” | Soul星研究：你有“真正去爱”的能力吗？

阿力讲星座|8月里，越来越有钱的生肖，7月下旬日子红红火火

华为Mate30华为手机太多，不知道怎么选？看看这三款，口碑超好

自动挡的＂S“挡和”sport＂按键 sport是什么意思

苹果手机|华为新机，双卡+Wi-Fi 6+，会是谁？ | iPhone SE 2官方降价，国行2399起？

炼化|华泰证券：看好基础原料环节的龙头公司（附股）

中年|你的银行卡号输错一位，我们怀疑你恶意骗贷！

「王者荣耀」王者荣耀：评分最高只能16？玩家一场对局感动官方，得分突破记录

「克克异闻」多吃点他吧，很有用，长期痛经的

中新经纬|东阿阿胶大跌5.19%，振幅8.63%