世纪|链世纪对话分布式存储|贾永政:人工智能与区块链上的存储和计算( 二 )


 世纪|链世纪对话分布式存储|贾永政:人工智能与区块链上的存储和计算
文章图片

目前,Project PAI的PoUW项目正在测试网阶段,并将在明年上线主网。为了使得AI和链上计算更好的运行于区块链网络,我们还要考虑区块链的存储需求。PAI区块链设计并实现了相应的数据存储协议(PDP-2),该数据协议已经用于供应链管理和商品溯源等领域。未来,PAI数据存储协议还将接入BitTorrent和IPFS网络,来更大规模地支持链上的AI训练和通用计算。同时,基于PAI数据存储协议,Project PAI还研发了区块链数字身份认证和权限系统 PAI PASS,用于在区块链上更好地共享并管理数据,保障用户的隐私。

在此,感谢Project PAI为我们提供了AI和区块链结合的最新研究成果,PoUW项目作为今天的案例,为我们描述了一个完整的AI和区块链存储和计算相结合的系统架构。

更多关于PAI区块链和PoUW的研究成果,欢迎大家查看:
https://projectpai.com/pai-research/
Q、IPFS被誉为新一代互联网底层协议,您认为它对分布式存储的发展具有怎样的作用?
【贾永政】:首先,分布式存储系统和分布式文件系统不一定是去中心化的,它可以是由一个主体发起并运营的可扩展的存储系统架构,通过使用多台存储服务器分担存储负荷,并使用位置服务器定位存储信息,从而系统的可靠性、可用性和数据存取效率。传统的经典分布式存储系统包括GFS、Hadoop、glusterFS等,他们都对分布式存储技术产生了重要影响。

特别地,IPFS (InterPlanetary File System) 是一种点对点(P2P)的分布式文件系统,它可以是完全去中心化的,这一点是不同于上述几种分布式存储/文件系统的。因此,IPFS可以和区块链系统很好地结合使用,并在系统中引入激励机制(Filecoin)。
【 世纪|链世纪对话分布式存储|贾永政:人工智能与区块链上的存储和计算】
同时,IPFS还可以成为新一代互联网底层协议来使用,作为HTTP的替代版和升级版是完全没问题的。因为与HTTP不同,IPFS使用的P2P传输协议几乎不会有404和502等情况。同时文件经过加密处理和碎片化处理后将被永远储存。利用更多闲置硬盘和带宽,IPFS将会不再需要浪费大量的设备维护,极大节约带宽和存储资源,极大的降低数据传输的成本。

在这里简单介绍下IPFS的工作原理:
IPFS中每个文件及其中的所有块都被赋予一个称为加密散列的唯一指纹。
IPFS通过网络删除重复具有相同哈希值的文件,通过计算确认哪些文件是冗余重复的,并跟踪每个文件的版本历史记录。
每个网络节点只存储它感兴趣的内容,以及一些索引信息,有助于弄清楚谁在存储什么。
查找文件时,你通过文件的哈希值就可以在网络查找到储存该文件的节点,找到想要的文件。
使用称为IPNS(去中心化命名系统),每个文件都可以被协作命名为易读的名字。通过搜索,就能很容易地找到想要查看的文件。

IPFS开源协议始于2014年,目前已安全稳定运行6年,在GitHub的活跃度非常好,开发者们的参与度很高。关于IPFS的激励机制(Filecoin)以及基于IPFS可以构建各种互联网和区块链应用,后面我们会详细介绍。
Q、您说到新的数据计算技术策略是将计算转移到存储,而不是之前的将数据从数据源转移到CPU后再进行计算,这怎么理解?
【贾永政】:在传统的系统架构设计中,存储和计算往往是分开的,通常是将数据从数据源(如内存、磁盘等存储设备)转移到CPU后,然后再进行计算。这种设计在有的时候并不是最优的,正如我们讲到,AI技术是数据存储和计算密集型的,如果能够更好地打通计算和存储的隔阂,就会提高数据计算和存储的效率。

长期以来,研究人员已经意识到传统的以CPU为中心的大数据集处理效率低下。因此,为了数据密集型处理性能和能源效率更高,不少研究工作开始探索新的存储与计算技术:近数据计算(NDP:Near Data Processing),该策略将计算转移到存储(即数据源),而不是之前的将数据从数据源转移到CPU在进行计算。这些研究认为,磁盘中的多余计算资源可用于在其本地运行数据处理任务。随着固态硬盘(SSD)的不断发展以及数据密集型应用程序的出现,近年来,近数据计算(NDP)引起了存储、高性能计算、数据库系统等领域的研究者的广泛关注,并取得了丰富的研究成果。

除了上面讲述的近数据计算的技术之外,我认为,去中心化存储技术和区块链技术给了我们更多的融合存储和计算技术的可能。在IPFS里面承担存储的节点,未来也有可能进行相应的链上计算。在Project PAI的PoUW区块链里面进行训练的矿工或者检验训练结果的验证者,同时也可以承载数据和AI算法模型的存储工作,这个理念和近数据计算是一致的。将去中心化存储与计算结合在一起,将会带来更多应用场景,特别是对于AI和大数据科学等数据密集型的应用,将会极大地提高我们进行计算和存储的效率。
Q、5G和AI的快速发展会对分布式存储技术有怎样的促进作用?
【贾永政】:5G网络的主要目标是让终端用户始终处于联网状态,相比4G网络(4G LTE)服务的传输速率仅为75Mbps,5G网络已成功在28千兆赫(GHz)波段下达到了1Gbps。因此,5G可以极大地提高网络中点对点传输的效率,提升带宽,降低延迟。


推荐阅读