|如何在机器学习的框架里实现隐私保护?( 三 )


从2006年差分隐私被提出以来 , 隐私的度量也一直是这个领域很基础的一个问题 , 期间提出的概念包括 ?-DP、(?,δ)-DP、Renyi-DP、(Truncated) Concentrated DP 等 。 隐私度量 , 顾名思义是要度量一个算法的隐私损失 。 (?,δ)-DP 可以按照公式计算出一次统计查询对应的隐私损失 (?,δ) 。 通常一个复杂算法可以看成多次统计查询的复合(composition)和采样(sampling), 因此分析一个复杂算法的隐私损失需要计算复合和采样两种操作的隐私损失 。 2019年[11]提出的高斯差分隐私(gaussian differential privacy)对采样和复合都给出了一个紧估计 , 在隐私损失的统计上比之前的 moments accountant 技术更精准 , 从而在相同隐私预算下要加的噪音更小 , 取得的性能更好 。
最近 , 另一个模型隐私的研究热点是模型遗忘(machine unlearning) 。 如果把实现差分隐私看成主动设计算法使得输出模型满足隐私要求 , 那么模型遗忘是一种被动解决模型隐私的方法 。 它旨在机器学习模型中实现用户的“被遗忘权利(the right to be forgotten)” 。 模型遗忘最直观的做法是在删除指定数据后的训练集上重新训练(retraining)这种做法的计算代价非常大 , 因此模型遗忘工作的主要目标是降低计算代价 , 一类方法是对训练好的模型进行后处理 , 使得模型遗忘算法的结果跟重新训练得到的模型是统计意义上近似不可区分的[12 , 13];另外一类方法是设计新的训练方法 , 降低重新训练的代价 , 这类方法通常将数据分成不同块 ,每块数据单独训练一个子模型 ,并汇总子模型的结果 , 这样删除一个数据点只需要重新训练一个子模型[14 , 15] 。
|如何在机器学习的框架里实现隐私保护?
本文插图

第三章 联邦学习
【|如何在机器学习的框架里实现隐私保护?】 (Federated learning)
联邦学习(federated learning)的愿景是在不共享数据的情形下进行多方联合机器学习 , 本质上是一种数据访问受限的分布式机器学习框架 。
相比于经典的分布式机器学习 , 联邦学习的第一层受限是数据隔离——数据在各个终端不共享 , 不均衡 , 交互通信要尽量少 。 微软和 CMU 合作的论文介绍了这方面的工作[16] 。 研究人员分析了在数据隔离的限制下一类分布式方差缩减算法(Variance Reduced Methods, i.e.,SVRG,SARAPH,MIG)的理论性能 。 在最自然的分布式设置下(终端节点运算内循环 , 参数服务器运算外循环)取得线性收敛性(强凸目标函数) , 并且算法的时间复杂度对条件数的依赖取得目前理论上的最好结果 。 分布式方差缩减算法相比于分布式梯度下降 , 显著降低了通信开销并利于保护隐私 。
在分析中 , 研究人员引入了 restricted smoothness 衡量本地目标函数和全局目标函数之差的平滑性 , 结果显示 restricted smoothness 决定了算法的收敛性 。 并且当数据不平衡 , restricted smoothness 较差时 , 引入差异正则项 , 保证算法可以收敛 。 表2列举了各个分布式算法的通信和计算复杂度比较(*标识文中的算法) , 可以看出文中的分析对最自然的分布式方差缩减算法给出了最优的结果 。
|如何在机器学习的框架里实现隐私保护?
本文插图

表 2:分布式算法通信和计算复杂度比较
联邦学习的第二层受限是隐私保护 。 直觉上 , 只共享参数更新而不共享原始数据可以在一定程度上保护原始数据的隐私 。 不过 , 论文[17]指出在深度模型中共享单个样本的梯度可以泄露原始数据 。 他们提出梯度匹配(gradient matching)算法 , 利用给定输入在模型上的梯度可以相当准确地恢复出原始数据的输入和标签 。 图5展示了梯度匹配在 MNIST、SVHN、CIFAR、LFW 数据集上恢复输入的例子 。


推荐阅读