驱动中国|蚂蚁共享智能的技术壁垒在哪儿?,3年赋能1000家机构

6月20日消息,甲骨文的云数据平台BlueKai被曝出泄漏了数十亿条记录的Web跟踪数据 。 由于服务器处于不安全状态且没有密码,Web跟踪数据正泄漏到开放的互联网上,从而使数十亿条记录可供任何人查找 。
同样在今年,Facebook的用户安全问题在过去多年一直为人诟病,多次传出用户数据外泄的Facebook在近日更是再受丑闻的影响 。 据外国网站HackRead最新发表的文章中提及,在4月份于暗网(Darkweb)出售的2.67亿个Facebook用户数据目前已经转移至一个黑客论坛上出售,当中香港就有290万名Facebook用户的数据牵涉在内 。
如何保证数据安全,又要避免形成数据孤岛?
这一世界性难题,也是蚂蚁的野望 。 很多时候,数据的管理者和使用者并不是数据的所有者 。 数据共享过程中发生泄露,受损的是多方利益,尤其对于管理方,巨大的商誉和品牌信誉受损需要付出更大的代价弥补,即便甲骨文、Facebook也不例外 。
在蚂蚁提出共享智能之前,无论是欧盟的GDPR,还是美国CCPA、中国的数据安全法、网络安全法、个人信息保护法等都对这种数据管理失责和数据滥用,提出严格的规范 。 规范起到的作用本质是对数据共享的钳制,反而加剧形成了大数据孤岛,但问题的本质真的是规范和管理吗?
早在2016年,蚂蚁就开始致力于共享智能的技术研发,并在蚂蚁内部及合作伙伴方的智能信贷、智能风控等业务领域中率先应用 。 目标是解决数据协作需求与隐私泄露和数据滥用之间矛盾的技术解决方案 。 听起来很拗口,本质上就是在不直接共享数据的情况下,连通这些大数据孤岛,实现多方数据只用不拿 。
驱动中国|蚂蚁共享智能的技术壁垒在哪儿?,3年赋能1000家机构
文章图片
在安全风控领域,蚂蚁基于共享智能技术将风控能力赋能合作伙伴,联合数据建模提升模型性能,来建立安全风控网络 。 生态伙伴可以使用可信执行环境技术,把数据加密传输到网络中共建这个模型,打击虚假交易、团伙作案等,大幅度提升风控准确率,实现风控网络的净化 。 通过这样的风控网络平台,使得商家每天新增很多的交易,同时降低资损 。
蚂蚁共享智能成立3年以来,已经为1000家机构提供技术赋能,当我们深入去分析它背后的技术原理时,不得不感叹他们的技术底蕴和超前理念 。
蚂蚁共享智能的技术底蕴:四大基石性研究方向+两大解决方案
蚂蚁共享智能有四个基石性的研究方向,分别是多方安全计算,可信执行环境,差分隐私,以及联邦学习 。 多方安全计算和可信执行环境侧重解决计算过程中的数据安全问题,差分隐私侧重保护计算结果里的隐私泄露,而联邦学习擅长解决大数据孤岛带来的人工智能算法收敛性及效率问题 。
驱动中国|蚂蚁共享智能的技术壁垒在哪儿?,3年赋能1000家机构
文章图片
多年来,蚂蚁共享智能的研究不仅在推动着四个基础方向的进步,同时对这四个方向也在进行融合创新,提供满足不同实际需求的多种产品与服务 。
在数据安全领域有两个重要的方向:可信计算环境(TEE)和多方安全计算(MPC) 。 蚂蚁根据不同行业、不同的业务对于数据合作模式、计算效率、安全性等等的需求的差异提出TEE和MPC两个方向的解决方案 。
基于TEE的共享智能:基于TEE的共享智能的思路其实很简单 。 我们知道,按传统思路,当有多个数据提供方想进行数据共享时,为了解决彼此不信任的问题,往往大家会找一个共同信任的第三方平台,把所有数据汇总到这个可信第三方平台上进行融合和计算 。 但是问题在于,在传统技术下,由于第三方平台上的管理员会拥有超级权限,这往往会使得数据提供方心存疑虑,担心第三方平台自身或者其员工,利用超级权限拿走数据 。 于是,利用一个可信硬件(TEE)来充当这个可信的第三方就成了一种可能的选择 。
基于MPC的共享智能:基于TEE的共享智能方案,由于是集中式训练,所以与数据的分布形式无关;而基于MPC的共享智能方案已被应用于蚂蚁多个联合建模业务的全链路之中 。 多方联合建模的全链路通常包括了数据对齐(即隐私求交),特征分析(如共线性检验),特征处理(如缺失值填充),模型训练及预测 。 在整个链接中,参与方的隐私数据始终由各自保留,蚂蚁共享智能在每方部署一个计算模块;同时,多方通过计算模块交互密态的数据来完成数据分析及模型的训练/预测 。


推荐阅读