雷锋网直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起( 二 )


目前 , 基于IPU的一些应用已经覆盖了机器学习的各个应用领域 , 包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型 。 Graphcore在Github不仅提供模型移植的文章 , 还有丰富的应用案例和模型 。
还有一个关键的问题 , 开发者把模型迁移到IPU需要进行代码级修改吗?卢涛对雷锋网表示:"AI的开发者90%都使用开源框架 , 开发语言是Python , 对于这类开发者 , 代码的迁移成本非常低 。 就算是占开发者群体9%的 , 使用基于NvidiacuDNN的性能级开发者 , 我们也会尽量提供和cuDNN类似的用户体验 , 这个工作量目前看来完全在接受的范围 。 "
IPU吞吐量最高比GPU提升260倍
解决了芯片到应用的软件问题 , 那IPU更适合在哪些场景应用?"我们未来推进的策略还是训练和推理两个事情并行来做 。 有可能是一些单独的训练任务 , 也有可能是一些单独的推理任务 , 但我们会更加聚焦在一些对精度要求更高、对时延要求更低、对吞吐量要求更高的一些场景 。 "卢涛进一步表示 。
"当前广泛应用、主流的CV类的模型是以Int8为主 , 但像现在的NLP模型 , 以及一些搜索引擎里用的模型或者广告算法模型其实都是FP16 , 甚至FP32为主流的数据格式 , 因为这样一些模型对于精度的要求会更高 。 因此云端推理除了Int8 , FP16和FP32的市场也很大 。 "
Graphcore中国销售总监朱江指出 , 除了稠密的数据之外 , 现在代表整个AI发展方向的大规模稀疏化的数据 , 在IPU上处理就会有非常明显的优势 。 与大规模的稀疏化数据对应的是分组卷积这样一种新型的卷积算法 , 与ResNet这种目前比较传统的方式相比 , 可以有更好的精度方表现和性能提升 。
雷锋网直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图
Graphcore给出了一个分组卷积内核的Micro-Benchmark , 将组维度(GroupDimension)分成从1到512来比较 。 512就是应用得较多的"Dense卷积网络" , 典型的应用如ResNet 。 在212的维度 , IPUGC2性能比V100要好近一倍 。 随着稠密程度降低、稀疏化程度增加 , 在组维度为1或为32时 , 针对EfficientNet或MobileNet , IPU对比GPU展现出巨大的优势 , 做到成倍的性能提升 , 同时延时大大降低 。
之所以在低数组维度优势明显 , 是因为分组卷积数据不够稠密 , 在GPU上可能效果并不好 , 而IPU的架构设计在分组卷积中能够发挥优势 , 并且可以提供GPU很难甚至无法提供的低延迟和高吞吐量 。
整体而言 , 与英伟达V100相比 , Graphcore的IPU在自然语言处理方面的速度能够提升20%-50% , 图像分类能有6倍的吞吐量提升实现更低的时延 。 这些优势在IPU的实际落地案例中也同明显的性能优势 。
雷锋网直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图
在金融领域的风险管理、算法交易等应用中 , 会使用MarkovChain和MCMC等算法 , 借助IPU , 采样速率能够比GPU提高26倍 。 在金融领域应用广泛的强化学习 , IPU也能把强化学习时间缩短到1/13 。 还有 , 采用MLP(多层感知器)加上嵌入一些数据的方式来做销售的预测 , IPU相比GPU能有5.9倍以上的吞吐量提升 。
雷锋网直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图
雷锋网直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起
本文插图
在医疗和生命科学领域 , 包括新药发现、医学图像、医学研究、精准医疗等 , IPU也已经体现出优势 。 微软使用IPU训练COVID-19影像分析的算法模型CXR , 能够在30分钟之内完成在NVIDIAGPU上需要5个小时的训练工作量 。
另外 , 在电信领域 , 机器智能可以帮助分析无线数据的一些变化 , 比如采用LSTM模型预测未来性能促进网络规划 。 基于时间序列分析 , 采用IPU能够比GPU有260倍的吞吐量提升 。


推荐阅读