雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索( 五 )
本文插图
那么为什么机器学习模型训练可以容忍部分丢包呢?原因是目前模型训练大多采用随机梯度下降(SGD)方式通过多轮迭代进行 , 丢失一部分数据不影响训练算法找到模型收敛点 。 如图所示 , 蓝线是不丢包的情况下模型训练的收敛路径 , 而在有丢包的情况下 , 随机梯度下降能让模型训练选择另外一条路径达到收敛点 。
本文插图
基于上述观察 , 我们设计了一个机器学习专用的网络传输协议---MLT 。 核心思想是:在不影响模型收敛的前提下 , 允许一定的丢包 , 不做重传 , 从而降低跨区域通信时间 。 将MLT跟传统的TCP以及UDP进行对比可以发现 , TCP可以看作是做百分百丢包重传的可靠传输 , UDP可以看作是百分百丢包不重传的不可靠传输 , 而MLT位于两者之间 , 是根据机器学习训练的特点 , 选择重传一部分丢失的数据包 , 使丢包率控制在不影响模型收敛的范围内 , 并通过避免不必要的丢包重传来降低联邦学习的通信时间 。
本文插图
具体到实验评测如上图 , MLT可以通过减少不必要的丢包重传 , 能够大幅缩短联邦学习模型训练的时间 。
雷锋网、雷锋网、雷锋网
推荐阅读
- 科学|在30300光年外的星云中,发现0.01倍太阳质量的行星盘!
- 公众号旗帜网络笔记|宇宙中很多恒星在星云内,其实也包括太阳系,但它却又是不同的
- 雷锋网|海康,为何强?
- |?神经拟态计算的“一小步”,AI发展的“一大步”
- 雷锋网|Hey,苹果罕见地让步了!以后“苹果税”还要交吗?
- 趣投稿|火星云矿商思林:穿越迷雾,写给Filecoin新矿工的3条建议
- cnBeta|哈勃太空望远镜展示行星星云的新图像
- 雷锋界面|物联网卡是流量卡吗?和手机流量卡有什么区别?
- 雷锋网|为付费用户提供差异化服务,Dropbox增添新功能
- 雷锋网|继亚马逊后,IBM、微软相继美国警方禁售面部识别技术