人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见( 四 )


同盾科技一直作为独立第三方的角色 , 持续在人工智能、云计算、大数据分析等方面做了很多的创新 。

人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图


在历年的发展过程当中 , 同盾科技也持续得到了政府、市场以及投资机构的认可 , 在今年的时候 , 成功入选了国家科技创新2030“新一代人工智能重大项目” 。
同盾一直以来把人工智能技术的创新与应用作为战略重点 , 我们在2018年专门成立了AI实验室 , 在2019年进一步升格成为人工智能研究院 , 以人工智能研究院为核心载体 , 稳步推动人工智能战略的布局和实施 。 在今年初又在美国硅谷成立了美国的AI实验室 。

人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图


团队的成员非常专注于人工智能底层技术的研究和应用的探索 , 有着非常丰富的工作经验 。 例如 , 团队的领军人物李晓林教授是美国公立常春藤名校佛罗里达大学的终身教授 , 创立了美国首个国家级深度学习中心 , 现在专职在同盾工作 。
此外 , 同盾科技背后还有一个非常强大的专家顾问团队 , 有浙大的潘云鹤院士 , 还有复旦的杨珉教授 , 他是国家973首席科学家 , 也是同盾移动安全领域的首席科学家 。
人工智能|李宏宇:知识联邦,用知识共创实现数据的可用不可见
本文插图

同盾科技在产学研合作方面已经做了非常广的部署 , 已经跟浙江大学、复旦大学、西北工业大学建立了长期的合作 , 也跟很多大学的金融机构 , 例如招联、建行 , 成立了联合的实验室 , 主要聚焦在一些创新性的研究和联邦学习的落地应用 。
演讲结束后 , 李宏宇也接受了雷锋网的采访 , 以下为雷锋网与李宏宇的对话实录 。
问:目前学术界会有哪些标准去衡量联邦学习的效果?
李宏宇:联邦学习衡量好坏 , 其实要分两个方面 。

一方面是说 , 它的性能在联邦之后和之前相比 , 是否有本质上的大幅提升?就像我们在演讲中提到的 , 如果单纯用一家参与方的自有数据去训练学习 , 可能它只能达到ks值0.35;但借用了其他参与方的一些数据优势之后 , 可能会达到0.37甚至更高 。
此时从指标上来讲是没有变化 , 但从性能对比上来讲 , 它一定会是远远大于那种使用单方数据的情况 。 当然这里面取决于其他参与方的数据质量如何 , 就是所谓的数据贡献 , 它能达到什么级别 。 同时 , 它一定不会超过双方数据合在一起后达到的性能效果 。
另一方面是安全问题 , 这时候需要对数据流通过程审计:到底流通了什么数据?在整个数据流通过程当中是否安全合规?是否符合个人信息保护规范和数据安全法的要求?
具体来讲 , 不同机构可能各自在数据流通过程中采用了不同的加密安全策略 , 所以没有一个固定的标准 。 这也是未来两年我们急需完成的事情 , 推动行业标准、国家标准 , 确定联邦过程、安全认证等级等 。
问:有研究指出 , 联邦学习方法中梯度信息的泄露可以反推出部分数据 , 请问是有这样的情况存在吗?有没有相应的对策?

李宏宇:如果是纯粹的联邦过程 , 利用梯度之间的迭代 , 那是容易被攻击泄露一些隐私信息 , 这是可以反推的——但真正的应用当中不会这么简单 , 除非对方是一个非常好的黑客 , 同时懂得网络安全和底层模型加密所有安全策略 , 否则很难做到 。
在数据流通全过程中 , 有做了几段数据加密过程 , 在数据预处理时就已加密脱敏 。 训练过程中又对模型的梯度参数进一步同态加密 。 之后传给联邦域 , 又要做非对称加密的网络通道传输——这是一层套一层的保护壳 , 到最后才保证真正的产品应用 。


推荐阅读