人工智能|李宏宇：知识联邦，用知识共创实现数据的可用不可见( 二 ) |青年|中年|

本文插图

如上图所示，知识联邦包含了两层意思，一层是知识，一层是联邦。其中，知识不仅包括模型、也包括逻辑规则或者模式。同时，知识也不是单纯通过训练学习出来的，它还包括经验知识、先验知识，这些可能是常识和行业领域知识，不需要再训练学习。
如何把分散在不同的行业或领域里的知识，充分地利用起来？这就是知识联邦所要做的事情，简单而言是通过数据安全交换协议，利用多个参与方的数据，进行知识的共创、共享和推理。最终的目标是要实现数据可用不可见。
注：不同于密码协议，数据安全交换协议定义了如何在多个参与方之间进行数据交换的过程。
知识联邦不是一个单纯的技术方法，它是一套框架体系。这个框架体系可以根据联邦发生的阶段，划分为四个层次。第一是信息层的联邦，在数据转换为信息的时候，把这些信息进行计算或者处理，涉及的技术是安全多方计算。然后通过某些先验的知识，通过某些规则直接提取出有价值的信息，最后形成联邦。
第二个是模型层的联邦。也就是通常提到的联邦学习，涉及到模型参数的更新。

第三个是认知层上的联邦。对已有的模型训练、学习，形成了一些浅层的知识，我们再将这些浅层知识联合在一起，进行集成学习，从而得到更优、更好、符合特定应用场景的知识。
第四个是知识层上的联邦。在不同的行业、不同的领域之间有很多知识库，在不同领域、行业的知识库上进行知识推理，就是知识层联邦。所以知识联邦不是单纯的某一种应用方法，它统一支持了所有的安全多方应用，包括安全多方计算，安全多方学习，安全多方数据共享，以及联邦推理、联邦预测等一系列的综合体。
应用介绍：隐私保护相关行业
知识联邦在很多行业里有广泛应用的价值。例如金融领域，做为一个数据监管非常强的行业，知识联邦在此领域的应用更为全面。知识联邦的信息层可以用来解决多头共债的问题，在模型层解决智能风控的问题，反欺诈和企业征信可以分别在认知层和知识层解决。

本文插图

先看多头共债的问题。通常一个用户可能会与多个平台发生一些借贷关系，这时候就陷入了共债。一旦这个用户发生资金的问题，就有可能导致系统性的风险，甚至导致金融行业的大波动。解决多头问题，通常的方式是能够多头评估个人真实的收入。换句话说，就是得到此人的累计的授信和实际已经发生的借贷。但是这样有可能会泄露很多查询隐私。
利用知识联邦的查询方式是：提出需求之后第三方向各方查询，查询的时候每家参与机构分别计算他已经得到的授信或风险，把风险通过密文的方式传送给第三方，第三方再把所有的密文结构汇总，汇总之后返还给主动查询方，如此便能保证数据隐私的安全。当然，在这个过程中需要进行一些加密或者同态加密的算法，但是现有很多同态加密的算法耗时非常大，如果能融合知识联，就能够使它的效能大大提高。

本文插图

再看智能风控的问题。在解决这个问题的时候，知识联邦方案中采用的是一种不经意传输的方案，让没有标签一方的数据通过多种标签组合的方式，然后形成多种结果，再把中间结果返还给有标签的一方，让它进行筛选，从而挑选有用的信息使用。

如上图真实场景当中的数据示例。假定在数据对齐之后有20万条70维的特征和标签，以及180维的B方的数据，这时如果只使用单方的数据，其KS值相对比较低，如果使用联邦学习，哪怕是性能一般的方法，也会有明显提升的。

人工智能|李宏宇：知识联邦，用知识共创实现数据的可用不可见( 二 )

推荐阅读

南京雨花茶是什么茶？

梅花自健康|不是山药，平时可劲吃，健脾胃，排湿气，补脾王被发现

什么鱼可以做生鱼片(日本生鱼片种类)

西方无神论者的婚礼怎样进行

黑暗之魂|PS5《黑暗之魂》数字豪华版特典公开，11月重回帕雷塔尼亚

『西安』成渝、南京、西安、福州被点名？你可能想简单了

为什么长江叫“江”，黄河叫“河”？江和河究竟有什么区别？

娱乐小羊宝|妹子，这回你不能饶了他，否则下次他还会搞笑的，搞笑GIF:

手机中毒者联想现在无手机可卖，怪不得这个618消失了呢？

基层最高检：基本实现行政非诉执行违法情形监督全覆盖

美国|轮到中方行动了！蓬佩奥没料到，对华疯狂出手后，美反遭三重打击

2021年八月出生的鼠宝宝取名-2021年八月出生宝宝取名禁忌

说自己是钮祜禄是什么梗？钮祜禄是什么梗钮祜禄梗的意思？

旅游|长白山突然发生山体滑坡：游客飞奔避险逃命

明星八卦|演禁片成名，艳压群芳拿影后，这个「双面」尤物，才是真正的女神

问董秘|贵公司是否有措施...，投资者提问：贵公司近期是否有增持或扩股计划？在证监处罚后

『新发现杂志』大数据时代可怕的能耗

无人机创客教育进入课堂，“创客火”编程无人机助推落地

「中新网」法国东南部遭暴雨侵袭引发洪灾已致6人遇难

十月一烧纸能提前吗七月十五可以提前几天烧纸