雷锋网|直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起


AI没有走向低潮 , 而是在催生大量的应用 。 但大量的AI的应用非常场景化 , 既需要成熟的CPU和GPU , 也需要全新的AI处理器 。 IPU(IntelligenceProcessingUnit)就是一种为AI计算而生的革命性架构 , 如今 , IPU已经在金融、医疗、电信、机器人、云和互联网等领域取得成效 。
随着英国初创公司的Graphcore的IPU在AI应用市场的规模化落地 , 第三类AI处理器受到的关注度越来越高的同时 , 但IPU能否更好完成CPU和GPU不擅长的AI任务成为当之无愧的革命性架构?

雷锋网|直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图

IPU如何跨过芯片与AI应用之间的鸿沟?
去年底 , 雷锋网的《为AI颠覆GPU!计算机史上迎来第三个革命性架构IPU》一文已经解读了GraphcoreIPU架构的独特之处 。 这里再稍作介绍 , Graphcore已经量产的IPU型号为GC2 , 处理器内部有1216个IPUTiles , 每个Tile里面有独立的IPU核作为计算以及InProcessorMemory即处理器之内的内存 。 整个GC2处理器总共有7296个线程 , 能够支持7296个程序在并行的运行 。

雷锋网|直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图

基于台积电16nm工艺集成236亿个晶体管的GC2在120瓦的功耗下有125TFlops的混合精度、300M的SRAM能够把完整的模型放在片内 , 另外内存的带宽有15TB/s、片上的交换是8TB/s , 片间的IPU-Links是2.5Tbps 。

雷锋网|直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图

也就是说 , IPU通过分布式的片上存储架构突破了AI芯片的存储墙瓶颈 。 但正如Graphcore销售副总裁兼中国区总经理卢涛在近日的一场媒体分享会上所言:"从一个芯片到落地中间有很多gap 。 包括是否有比较好的工具链、丰富的软件以及丰富的软件库支持 , 还有对主流算法、框架以及操作系统的支持 。 "
这就意味着 , 只有通过易用的软件将芯片的优势发挥出来AI芯片才能更好地落地 。 对于IPU而言 , 由于架构的特色 , 解决并行硬件的高效编程是一个非常大的课题 。 为此 , Graphcore在GC2中采用了谷歌、Facebook、百度这些构建大规模数据中心集群会使用的BSP(BulkSynchronousParallel)技术 , 通过硬件支持BSP协议 , 并通过BSP协议把整个计算逻辑分成计算、同步、交换 。

雷锋网|直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图

卢涛说:"对软件工程师或者开发者来说 , 采用了BSP后就非常易于编程 , 因为不用处理locks 。 对用户来说 , 也不用管这里面是1216个核心(Tile)还是7000多个线程、任务具体在哪个核上执行 , 这是一个非常用户友好的创新 。 "

雷锋网|直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图

在此基础上 , Graphcore推出了在机器学习框架软件和硬件之间基于计算图的整套工具链和库的Poplar是软件栈 。 据悉 , Poplar目前已经提供750个高性能计算元素的50多种优化功能 , 支持标准机器学习框架 , 如TensorFlow1、2 , ONNX和PyTorch , 很快也会支持PaddlePaddle 。
另外 , 可以支持容器化部署 , 能够快速启动并且运行 。 标准生态方面支持Docker、Kubernetes , 还有像微软的Hyper-v等虚拟化技术和安全技术 。 操作系统支持广泛应用的三个Linux发行版:ubuntu、RedHatEnterpriseLinux、CentOS 。
今年5月 , Graphcore又推出了名为PopVisionGraphAnalyser的分析工具 , 开发者、研究者在使用IPU进行编程的时候 , 可以通过PopVision这个可视化的图形展示工具来分析软件运行的情况、效率调试调优等 。 同月也上线了Poplar开发者文档和社区 。


推荐阅读