雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索( 五 )



雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

那么为什么机器学习模型训练可以容忍部分丢包呢?原因是目前模型训练大多采用随机梯度下降(SGD)方式通过多轮迭代进行 , 丢失一部分数据不影响训练算法找到模型收敛点 。 如图所示 , 蓝线是不丢包的情况下模型训练的收敛路径 , 而在有丢包的情况下 , 随机梯度下降能让模型训练选择另外一条路径达到收敛点 。

雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

基于上述观察 , 我们设计了一个机器学习专用的网络传输协议---MLT 。 核心思想是:在不影响模型收敛的前提下 , 允许一定的丢包 , 不做重传 , 从而降低跨区域通信时间 。 将MLT跟传统的TCP以及UDP进行对比可以发现 , TCP可以看作是做百分百丢包重传的可靠传输 , UDP可以看作是百分百丢包不重传的不可靠传输 , 而MLT位于两者之间 , 是根据机器学习训练的特点 , 选择重传一部分丢失的数据包 , 使丢包率控制在不影响模型收敛的范围内 , 并通过避免不必要的丢包重传来降低联邦学习的通信时间 。

雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

具体到实验评测如上图 , MLT可以通过减少不必要的丢包重传 , 能够大幅缩短联邦学习模型训练的时间 。
雷锋网、雷锋网、雷锋网


推荐阅读