雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索



雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

近期 , 星云Clustar首席科学家胡水海 , 以"GPU在联邦机器学习中的探索"为题 , 全面详尽地讲解了目前解决联邦学习的性能与效率问题 , 以及解决思路 。
在报告中胡水海提到 , 联邦学习的模型训练过程 , 很难绕开同态计算和密文传输 , 二者对算力和网络都有严苛的要求 , 星云Clustar也因此选择从GPU加速同态运算 , 以及高速网络助力密文传输效力的角度切入 , 来改善联邦学习的计算速度 。
以下是胡水海的演讲全文:
目前在AI领域面临的一个很重大的问题 , 其实是数据孤岛问题 。 在企业层面 , 大部分公司在开发自己的AI模型的时候 , 其实并不缺少算法和应用场景 , 也不缺少优秀的人才 , 其所面临的最大问题是数据不足的问题 。
每个企业都有一些自己的数据 , 但是这些数据彼此之间是相互割裂的 , 也没有一种方法将每个企业的数据高效地连通起来 , 所以一些小企业会面临数据不足以及大企业数据垄断问题 。
另一方面 , 无论国内 , 还是国外 , 对数据隐私的保护都已经被重视了起来 。 其实 , 从2012年开始 , 国外欧盟已经在逐步起草一些法律法规来保护数据安全以及用户隐私 , 2018年5月份生效的GDPR更是将用户数据安全提升到了另一个高度 。
另外 , 在今年1月份 , 美国加州也出台了相关法案 , 明确规定数据归用户所有 。 这些数据隐私保护的趋势都在表明:企业已经无法以明文的方式交换其拥有的数据 。

雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

而对于国内 , 从2009年开始也在逐步出台很多保护数据安全以及用户隐私的法案 。 总的来看 , 国内的数据法规政策有两大趋势 , 首先是对数据安全的保护事实上变得越来越严格 , 这直接体现为去年一些大数据公司在共享数据的时候 , 因为行为不当 , 受到了很严厉的法律惩罚 。
另外一方面是对数据安全的保护变得越来越全面 , 在各个领域各个维度都出台了非常多的法律法规来保护数据隐私 。 所以 , 在上述背景下 , 解决数据孤岛问题其实就变得更加困难 。 但是联邦学习的出现为安全合规地连接数据孤岛 , 提供了一种非常有前景的方法 。 联邦学习是一项数据不出本地 , 就可完成机器学习多方协作建立模型的技术 。 换句话说这种数据不出本地的联合建模技术 , 正是解决国内企业数据孤岛现状的"良药" 。
联邦学习与同态加密

雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

联邦学习有很多的优点 , 首先能保证数据隔离 , 保证数据不会泄露到外部;其次联邦学习有无损的性质 , 保证联合建模的效果等同于直接用所有的数据进行建模的效果;再者 , 在联邦学习里所有数据参与方的地位都是对等的;最后 , 联邦学习能保证参与方共同获益 , 有助于打破数据巨头的垄断地位 。 联邦学习之所以能实现这些神奇的效果 , 其中有一项关键技术就是同态加密计算 。
同态加密是一种特殊的非对称加密系统 , 一般加密后的密文是一段无法操作的二进制数 , 除非解密 , 不然不能对其进行计算或其他操作 。 而同态加密好的密文仍然能进行计算 , 得到仍然是加密的结果 。

雷锋网|星云 Clustar 首席科学家胡水海:GPU 在联邦机器学习中的探索
本文插图

最重要的是对密文进行的计算 , 解密后跟对明文进行计算后的结果相同 。 这个特性可以让参与者进行数据运算 , 但无需知道参与计算的密文内容 。 同态计算的应用范围非常广 , 但是有一个显著的缺陷 , 就是性能太低 , 具体有多低后面会分析 , 不过有一种折中的方式勉强能被接受 , 那就是部分同态加密 。 部分同态加密分为加法同态和乘法同态 。


推荐阅读