人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见( 二 )


人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图



如上图所示 , 知识联邦包含了两层意思 , 一层是知识 , 一层是联邦 。 其中 , 知识不仅包括模型、也包括逻辑规则或者模式 。 同时 , 知识也不是单纯通过训练学习出来的 , 它还包括经验知识、先验知识 , 这些可能是常识和行业领域知识 , 不需要再训练学习 。
如何把分散在不同的行业或领域里的知识 , 充分地利用起来?这就是知识联邦所要做的事情 , 简单而言是通过数据安全交换协议 , 利用多个参与方的数据 , 进行知识的共创、共享和推理 。 最终的目标是要实现数据可用不可见 。
注:不同于密码协议 , 数据安全交换协议定义了如何在多个参与方之间进行数据交换的过程 。
知识联邦不是一个单纯的技术方法 , 它是一套框架体系 。 这个框架体系可以根据联邦发生的阶段 , 划分为四个层次 。 第一是信息层的联邦 , 在数据转换为信息的时候 , 把这些信息进行计算或者处理 , 涉及的技术是安全多方计算 。 然后通过某些先验的知识 , 通过某些规则直接提取出有价值的信息 , 最后形成联邦 。
第二个是模型层的联邦 。 也就是通常提到的联邦学习 , 涉及到模型参数的更新 。

第三个是认知层上的联邦 。 对已有的模型训练、学习 , 形成了一些浅层的知识 , 我们再将这些浅层知识联合在一起 , 进行集成学习 , 从而得到更优、更好、符合特定应用场景的知识 。
第四个是知识层上的联邦 。 在不同的行业、不同的领域之间有很多知识库 , 在不同领域、行业的知识库上进行知识推理 , 就是知识层联邦 。 所以知识联邦不是单纯的某一种应用方法 , 它统一支持了所有的安全多方应用 , 包括安全多方计算 , 安全多方学习 , 安全多方数据共享 , 以及联邦推理、联邦预测等一系列的综合体 。
应用介绍:隐私保护相关行业
知识联邦在很多行业里有广泛应用的价值 。 例如金融领域 , 做为一个数据监管非常强的行业 , 知识联邦在此领域的应用更为全面 。 知识联邦的信息层可以用来解决多头共债的问题 , 在模型层解决智能风控的问题 , 反欺诈和企业征信可以分别在认知层和知识层解决 。
人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图



先看多头共债的问题 。 通常一个用户可能会与多个平台发生一些借贷关系 , 这时候就陷入了共债 。 一旦这个用户发生资金的问题 , 就有可能导致系统性的风险 , 甚至导致金融行业的大波动 。 解决多头问题 , 通常的方式是能够多头评估个人真实的收入 。 换句话说 , 就是得到此人的累计的授信和实际已经发生的借贷 。 但是这样有可能会泄露很多查询隐私 。
利用知识联邦的查询方式是:提出需求之后第三方向各方查询 , 查询的时候每家参与机构分别计算他已经得到的授信或风险 , 把风险通过密文的方式传送给第三方 , 第三方再把所有的密文结构汇总 , 汇总之后返还给主动查询方 , 如此便能保证数据隐私的安全 。 当然 , 在这个过程中需要进行一些加密或者同态加密的算法 , 但是现有很多同态加密的算法耗时非常大 , 如果能融合知识联 , 就能够使它的效能大大提高 。
人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图

再看智能风控的问题 。 在解决这个问题的时候 , 知识联邦方案中采用的是一种不经意传输的方案 , 让没有标签一方的数据通过多种标签组合的方式 , 然后形成多种结果 , 再把中间结果返还给有标签的一方 , 让它进行筛选 , 从而挑选有用的信息使用 。

如上图真实场景当中的数据示例 。 假定在数据对齐之后有20万条70维的特征和标签 , 以及180维的B方的数据 , 这时如果只使用单方的数据 , 其KS值相对比较低 , 如果使用联邦学习 , 哪怕是性能一般的方法 , 也会有明显提升的 。


推荐阅读