AI的下一站( 二 )


保护隐私已经成为AI发展不可绕过的“槛” , 是AI技术的难题 , 也是AI良性发展的契机 。

趋势
可以说 , 保护隐私的各种法规的出台必然是未来不可避免的趋势 , 这势必让企业的数据收集、使用及流通的合规成本大幅增加 , 也容易让企业内部或者企业间形成数据孤岛问题 , 制约企业获取数据价值 。因此 , 保护隐私的AI技术的落地使用成为AI领域最亟待实现的目标 。
保护隐私的AI主要通过数据加密、分布式计算、边缘计算、机器学习等多种技术的结合来保护数据安全 , 近期比较热门的有Differential Privacy(差分隐私)、FederatedLearning(联邦学习 , 也叫联盟学习、联合学习、共享学习) 。
保护隐私不是说完全不收集数据 , 而是要通过技术的手段防止个人隐私数据的泄露 。差分隐私是一种数学技术 , 比如 , 假设要分析数据集并计算其统计数据(例如数据的平均值、方差、中位数、众数等) , 如果通过查看输出 , 我们无法分辨原始数据集中是否包含了任何个体的数据 , 那么这种算法就被称为差异私有 。
举个非常简单的例子 , 假设你的工作部门每个月都会用一个表格统计部门每个人的工资发放金额 , 除了制表人 , 别人无法查看这个表格 , 只能通过一个查询函数S知道这个表的总额 , 某个月你调去了别的部门 , 那么别人就可以通过上个月表格A , 和这个月表格B来知道你的工资 , 道理很简单 , 只需用S(A)减去S(B) 。B表格称为A表格的相邻数据集 , 它俩只相差一条数据 , 差分隐私技术就是要让相邻数据集的查询结果差不多 , 从而无法推出个人的信息来 , 这个差不多的程度可以看作隐私保护的力度 。苹果和Facebook已经使用这种方法来收集聚合数据 , 而不需要识别特定的用户 。MITTechnology Review将差分隐私技术列为2020全球十大突破性技术之一 。
联邦学习采用了分布式机器学习方法 , 近年来越来越受欢迎 , 该技术假设用户数据不会被存储到中心化的服务器 , 而是私有的、保密的 , 仅存储在个人的边缘设备上 , 比如手机 , 因此与传统机器学习方法相比 , 联邦学习从根本上增强了用户隐私 。联邦学习不依赖从用户设备端收集的数据来训练 , 而是在用户移动设备端训练AI模型 , 然后将训练得到的参数信息传输回一个全局模型 , 这个过程不需要用户数据离开个人设备 。

AI的下一站

文章插图
从近两年在arXiv(一个提交论文预印版的平台)上提交的论文数可以看出 , 该技术发展的快速趋势:
AI的下一站

文章插图

巨头的技术布局
从去年起全球最流行的两个机器学习框架 , TensorFlow和PyTorch都增加了联邦学习等解决方案来保护隐私 。
(1)google
联邦学习的概念最早是由Google在2017年首次引入 , 去年又发布了TensorFlow Federated(TFF)框架 , 利用Tensorflow的机器学习框架简化联邦学习 。
【AI的下一站】如下图所示 , 基于TFF框架搭建的学习模型在众多手机(如手机A)上进行本地化模型训练 , 更新权重并聚合(步骤B) , 进而更新提升后的全局模型(模型C) , 将全局模型再应用到各手机终端来提升算法应用效果 。
AI的下一站

文章插图
(2)Facebook
为了在保护隐私的机器学习领域取得进展 , 去年Facebook旗下优秀的深度学习框架PyTorch与OpenMined宣布开发一个联合平台的计划 , 以加速隐私保护技术的研究 。
OpenMined是一个开源社区 , 专注于研究、开发和升级用于安全、保护隐私的AI工具 。OpenMined发布了PySyft , 是第一个用于构建安全和隐私保护的开源联邦学习框架 。
PySyft很受欢迎 , 在Github已经拥有5.2k个Star , 目前支持在主要的深度学习框架(PyTorch、Tensorflow)中用联邦学习、差分隐私和加密计算(如多方计算 , 同态加密) , 实现将隐私数据与模型训练解耦 。


推荐阅读