为AI而生的IPU芯片,或挑战GPU的霸主位?( 二 )

为AI而生的IPU芯片,或挑战GPU的霸主位?
基于以上IPU的差异化特点 , IPU在某些批量训练和推理中能够获得更好的性能、更低延时和更快网络收敛 。 片内的SRAM相对于片外存储 , 也有高带宽和低延时的优势 。今年7月 , Graphcore发布了二代的Colossus MK2 IPU (MK2) , 以及包含四颗MK2芯片系统方案的IPU-Machine:M2000 (IPU-M2000) , 其核心数增加了20%, 达到1472个 , 8832个可并行执行的线程 。 片内SRAM则多出3倍 , 增加到900MB , 互联扩展性能是上一代的16倍 。 显然在计算、数据和通信扩展层面 , MK2都算是延续了第一代IPU堆料狂魔的作风 。为AI而生的IPU芯片,或挑战GPU的霸主位?
由4个IPU芯片构成的IPU-M2000系统 , 可以提供大约1 PetaFLOPs的算力 。 基于IPU的多层级存储结构 , 与IPU Exchange Memory等技术优化 , 整体与GPU的HBM2存储比较 , 可以提供超过100倍的带宽以及大约10倍的容量 , 可以适用于更复杂的AI模型和程序 。为AI而生的IPU芯片,或挑战GPU的霸主位?
计算加上数据的突破可以让IPU在原生稀疏计算中展现出领先GPU 10-50倍的性能优势 , 在通信上 , Graphcore专为为AI横向扩展设计了IPU-Fabric , 解决数据中心大规模计算横向扩展的关键问题 。 Graphcore将计算、数据、通信三者的突破技术结合 , 构建了大规模可扩展的IPU-POD系统 , 最终可以提供一个AI计算和逻辑进行解耦、系统易于部署、超低网络延时、高可靠的AI超算集群 。可以预计 , 未来IPU在各类AI应用中将具有更大的优势 , 而这也必然会引起英伟达的注意 。 那么 , 相较于英伟达GPU所占据的AI行业生态位的霸主地位 , IPU会有哪些前景 , 也会遭遇哪些困境呢?走向通用AI计算的“另辟蹊径”如果回顾下AI芯片的发展经历 , 我们看到在经过这几年专用AI芯片的井喷之后 , 也开始面临一个尴尬困境 , 那就是ASIC芯片的灵活性或者说可编程性很差 , 对应的专用AI芯片只能应对一种算法应用 , 而算法本身则在3-6个月的时间就有可能变化一次 , 或许出现很多AI芯片还未上市 , 算法就已经发生进化的问题 , 一些AI芯片注定无法生产 。 当然 , 专用AI芯片的优势也很明显 , 在性能、功耗和效率上远胜更加通用的GPU , 对于一些非常具体的AI应用场景 , 这些专用芯片就具有了巨大的收益 。从专注图像渲染崛起的英伟达的GPU , 走的也是相当于ASIC的技术路线 , 但随着游戏、视频渲染以及AI加速需要的出现 , 英伟达的GPU也在向着GPGPU(General Purpose GPU)的方向演进 。 为保持其在GPU领域的寡头地位 , 使得英伟达必须一直保持先进的制程工艺 , 保持其通用性 , 但是要牺牲一定的效能优势 。这给后来者一定的启发 , 那就是AI芯片既要具备一定的灵活的可编程性(通用性) , 又要具备专用的高效性能优势 。 这为IPU找到了一个新的细分市场 , 也就是介入GPU不能很好发挥效能的神经网络模型 , 比如强化学习等类型 , 同时又避免的专用AI芯片的不可扩展性 , 能够部署在更大规模的云计算中心或超算中心 , 对新算法模型保持足够的弹性计算空间 。目前来看 , IPU正在成为仅次于GPU和谷歌TPU的第三大部署平台 , 基于IPU的应用已经覆盖包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型等机器学习的各个应用场景 。典型的如通过IPU可以训练胸片 , 帮助医学人员快速进行新冠肺炎的诊断;如在金融领域 , 对涉及算法交易、投资管理、风险管理及诈骗识别的场景进行更快的分析和判断;此外在生命科学领域、通信网络等方面 , 都可以同IPU实现高于GPU性能的AI加速 。为AI而生的IPU芯片,或挑战GPU的霸主位?
(NLP模型参数的指数增长)当然 , IPU想要在AI计算中拥有挑战GPU地位的资格 , 除了在性能和价格上面证明自己的优势之外 , 还需要在为机器学习框架提供的软件栈上提供更多选择 , 获得主流AI算法厂商的支持 , 在标准生态、操作系统上也需要有广泛的支持 , 对于开发者有更方便的开发工具和社区内容的支持 , 才能从实际应用中壮大IPU的开发生态 。今年 ,AI芯片产业正在遭遇洗牌期 , 一些AI芯片企业黯然退场 , 但这并不意味着AI计算遭遇寒冬 , 反而AI算力正在得到大幅提升 , 以今年数量级提升GPT-3的出场就可以看出这样的趋势 。一个AI芯片从产出到大规模应用必须要经过一系列的中间环节 , 包括像上面提到的支持主流算法框架的软件库、工具链、用户生态等等 , 打通这样一条链条都会面临一个巨大挑战 。现在 , GPU已经形成一个非常完整的AI算力生态链路 , 而IPU则仍然在路上 , 是否能真正崛起 , 还需要整个AI产业和开发者用实际行动来投票 。


推荐阅读