黑白科技|Graphcore以IPU助力机器智能实现下一波突破

近一个月 , Graphcore的动作有点频繁 。
【黑白科技|Graphcore以IPU助力机器智能实现下一波突破】7月7日 , Graphcore发布PoplarSDK1.2并且正式开放了Poplar计算图库的一些源代码 。
7月8日 , Graphcore在中国的IPU开发者云也正式上线 , 面向中国的商业用户、大学以及科研机构和创新者免费使用 。
7月15号Graphcore发布了第二代IPU以及基于第二代IPU处理器的一系列的产品 。
黑白科技|Graphcore以IPU助力机器智能实现下一波突破
文章图片
Graphcore高级副总裁兼中国区总经理卢涛
针对这一系列动作 , IT168采访人员有幸采访到了Graphcore高级副总裁兼中国区总经理卢涛 , 卢涛表示 , 在过去一年多的时间Graphcore已经发展成为了一家全球型的公司 。 目前Graphcore全球的办公室遍布了欧洲、亚洲 , 和北美 。
具体来说 , Graphcore的主要工作聚焦于三部分:第一部分是专门为AI应用从零开始设计的一个IPU的处理器 。 第二部分是基于IPU的处理器以及面向AI应用的Poplar软件栈以及相关的一些开发工具 。 第三部分是围绕硬件和软件一起打造的IPU的平台 。
M2000:三大颠覆性技术突破
对于7月15号全新发布的Graphcore第二代产品ColossusMk2GC200 , 卢涛特别介绍了基于7纳米Mk2的IPU , Graphcore构建了IPU-Machine , 这个型号叫M2000 。 IPU-M2000是一款即插即用的机器智能刀片式计算单元 , 由Graphcore全新的7纳米Colossus第二代GC200IPU提供动力 , 并由Poplar软件栈提供全面支持 。 其设计便于部署 , 并支持可扩展至大规模的系统 。 这款纤薄的1U刀片机可提供1个PetaFlop的机器智能计算 , 并集成了针对AI扩展优化的网络技术 。
这一次发布有三大颠覆性的技术的突破 , 第一块是计算 , 第二块是数据 , 第三块是通信 。
如果从单一芯片来看 , ColossusMk2GC200处理器是目前世界上最复杂的单一的处理器 , 基于台积电7纳米的技术 , 这样一颗处理器里面集成了将近600亿个晶体管 , 拥有250TFlopsAI-Float的算力和900MB的处理器内存储 。 处理器内核从我们上一代的1217提升到了1472个独立的处理器内核 , 这样一个处理器有将近9000个单独的并行线程 。 相对于第一代产品 , 其系统级的性能提升了8倍以上 。
在数据方面 , Graphcore提出了一个叫IPUExchangeMemory , 即交换式存储的概念 。 Graphcore在M2000每个IPU-Machine里面通过IPUExchangeMemory技术 , 提供了将近超过100倍的带宽以及大约10倍的容量 , 这对于很多复杂的AI模型算法是非常有帮助的 。
通信方面 , Graphcore专门为AI横向扩展设计了一个IPU-Fabric的结构 。 这样一个IPU-Fabric可以做到2.8Tbps超低延时的结构 , 同时最多可以支持64000个IPU之间的横向扩展 。 也就是说通过IPU-Fabric的技术 , 用户可以把集群无缝的从一个、几个、几十个、几百个、几千个 , 最后扩展到64000个IPU , 通过直联或者是通过以太网的交换机等等技术做互联 。 同时IPU-Fabric支持像AI运算里面的像集合通信或者是像全缩减(All-Reduce)的操作 , 这也是专门为AI应用从零开始设计的一个Fabric的技术 。
软件PoplarSDK赋能下一代机器智能
对于IPU而言 , 它的设计目的很明确 , 是专为AI应用场景而打造的 , 而针对IPU产品Graphcore开发了Poplar软件 , 它能够使程序员用TensorFlow或者PyTorch的程序轻松达成目标 。
Graphcore中国区技术应用总负责人罗旭透露 , Poplar目前已经提供750个高性能计算元素的50多种优化功能 , 支持标准机器学习框架 , 如TensorFlow1、2 , ONNX和PyTorch , 很快也会支持PaddlePaddle 。
概括来说 , Graphcore此次最新发布的SDK1.2主要特性包括三大方面:其一 , 集成了先进的机器学习框架 。 其二 , 进一步开放低级别的API , 主要是为上层的算法提供一个低层次API接口 。 最后增加框架支持 , 包括对PyTorch和Keras的支持 。


推荐阅读