人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见( 三 )


人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图

下面介绍一个工业级的应用产品:智邦平台 。 随着人工智能的演进 , 在过去每隔30年 , 人工智能都有一个非常大的变化 , 我们是处于AI2.0的时代 , 如果说这时的AI已经“稍微”有点感知 , 那么未来知识联邦会是AI3.0的必由之路 , 帮助AI获得、使用更多的知识 。
人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图

为了迎合未来的“趋势” , 我们打造出了智邦平台 , 做为知识联邦的参考实现 , 目的是解决真实应用当中遇到的几个问题:
首先是提供数据安全交换的协议 , 这是非常重要的一环 , 因为想知道联邦到底安不安全 , 一种验证方式是开源 , 另外一种方式就是需要非常清楚数据交换过程中发生了什么事情 。
第二个是解决了多方参与的数据问题 , 因为每家机构的数据都是有异构存在的 , 多元异构的问题是打通所有参与方 , 形成数据联盟的痛点 。

第三个是一站式产品闭环的问题 。 从特征选择、特征预处理、数据预处理 , 到算法管理、安全保护 , 以及最后的模型发布 , 这一系列产品流程的闭环 。
总体上来讲 , 智邦除了通用的功能和场景化的应用算法之外 , 底层包含了FLEX协议和数据沙箱 , 做为支撑平台的两条腿 , 非常重要 。
人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图

简单看一下FLEX协议 。 第一个内容是特征选择 , 在特征选择的过程当中 , 都希望不要进行单方的特征选择 , 否则对方的特征无法发挥它的价值 。 平台提供了两种特征选择的方式 , 性能明显是要比只使用单方的数据进行特征选择的效果好很多 。
另一个内容是样本的安全对齐 。 样本对齐要求保护交集外的数据 , 平台提供的方式能够做到这一点 。 而在真正的应用当中 , 还有更严格的要求:参与方都希望保护交集内的数据 , 所以平台提出一种方案叫做双盲对齐 。

人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图


除了FLEX协议 , 平台的另外一条“腿”是数据沙箱 。 它解决的问题是如何把多元异构的数据标准化 , 然后将统一的数据进行接入 。 面对“不同的参与方有不同的结构数据 , 甚至字段定义、命名规则”的问题 , 可以通过沙箱可以快速实现标准化的处理 。 另外 , 沙箱里面也实现了数据分类分集 , 即根据不同的类型、不同的应用场景的数据 , 赋予其不同的脱敏加密方式 , 然后统一加密脱敏的方式 , 最后保证输出的所有参与方数据都保持一致 。
同时 , 沙箱是一个独立的组件 , 它能够对多个参与方之间的数据进行虚拟的融合 , 从而实现安全的多方数据共享 。
回过头来看联邦生态中涉及到的角色 , 有两大类 。 首先是数据提供者 , 其次是数据的使用者 , 包括模型的设计者和模型的使用者 。 一个真正的联邦生态会兼顾数据的提供者和数据的使用者两方 , 即不会让数据的提供者担心数据的真正使用方是谁 , 模型的设计者是谁 。
联邦如何激励参与方加入生态呢?其实所有不同的参与方都有自己的需求 , 例如数据提供者的原始动力是通过数据进行价值变现、价值最大化 。 模型的使用者的原动力来自于提升核心竞争力的渴望 , 同时希望扩大行业影响力 。
OMT:同盾科技
人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图

同盾科技成立于2013年 , 总部位于杭州 。 是一家专注于做智能分析与决策的公司 , 目前已经为金融、保险、互联网、政务等行业服务了上万家企业客户 。


推荐阅读