雷锋网直击 CPU、GPU 弱项!第三类 AI 处理器 IPU 正在崛起( 二 )
目前 , 基于IPU的一些应用已经覆盖了机器学习的各个应用领域 , 包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型 。 Graphcore在Github不仅提供模型移植的文章 , 还有丰富的应用案例和模型 。
还有一个关键的问题 , 开发者把模型迁移到IPU需要进行代码级修改吗?卢涛对雷锋网表示:"AI的开发者90%都使用开源框架 , 开发语言是Python , 对于这类开发者 , 代码的迁移成本非常低 。 就算是占开发者群体9%的 , 使用基于NvidiacuDNN的性能级开发者 , 我们也会尽量提供和cuDNN类似的用户体验 , 这个工作量目前看来完全在接受的范围 。 "
IPU吞吐量最高比GPU提升260倍
解决了芯片到应用的软件问题 , 那IPU更适合在哪些场景应用?"我们未来推进的策略还是训练和推理两个事情并行来做 。 有可能是一些单独的训练任务 , 也有可能是一些单独的推理任务 , 但我们会更加聚焦在一些对精度要求更高、对时延要求更低、对吞吐量要求更高的一些场景 。 "卢涛进一步表示 。
"当前广泛应用、主流的CV类的模型是以Int8为主 , 但像现在的NLP模型 , 以及一些搜索引擎里用的模型或者广告算法模型其实都是FP16 , 甚至FP32为主流的数据格式 , 因为这样一些模型对于精度的要求会更高 。 因此云端推理除了Int8 , FP16和FP32的市场也很大 。 "
Graphcore中国销售总监朱江指出 , 除了稠密的数据之外 , 现在代表整个AI发展方向的大规模稀疏化的数据 , 在IPU上处理就会有非常明显的优势 。 与大规模的稀疏化数据对应的是分组卷积这样一种新型的卷积算法 , 与ResNet这种目前比较传统的方式相比 , 可以有更好的精度方表现和性能提升 。
本文插图
Graphcore给出了一个分组卷积内核的Micro-Benchmark , 将组维度(GroupDimension)分成从1到512来比较 。 512就是应用得较多的"Dense卷积网络" , 典型的应用如ResNet 。 在212的维度 , IPUGC2性能比V100要好近一倍 。 随着稠密程度降低、稀疏化程度增加 , 在组维度为1或为32时 , 针对EfficientNet或MobileNet , IPU对比GPU展现出巨大的优势 , 做到成倍的性能提升 , 同时延时大大降低 。
之所以在低数组维度优势明显 , 是因为分组卷积数据不够稠密 , 在GPU上可能效果并不好 , 而IPU的架构设计在分组卷积中能够发挥优势 , 并且可以提供GPU很难甚至无法提供的低延迟和高吞吐量 。
整体而言 , 与英伟达V100相比 , Graphcore的IPU在自然语言处理方面的速度能够提升20%-50% , 图像分类能有6倍的吞吐量提升实现更低的时延 。 这些优势在IPU的实际落地案例中也同明显的性能优势 。
本文插图
在金融领域的风险管理、算法交易等应用中 , 会使用MarkovChain和MCMC等算法 , 借助IPU , 采样速率能够比GPU提高26倍 。 在金融领域应用广泛的强化学习 , IPU也能把强化学习时间缩短到1/13 。 还有 , 采用MLP(多层感知器)加上嵌入一些数据的方式来做销售的预测 , IPU相比GPU能有5.9倍以上的吞吐量提升 。
本文插图
本文插图
在医疗和生命科学领域 , 包括新药发现、医学图像、医学研究、精准医疗等 , IPU也已经体现出优势 。 微软使用IPU训练COVID-19影像分析的算法模型CXR , 能够在30分钟之内完成在NVIDIAGPU上需要5个小时的训练工作量 。
另外 , 在电信领域 , 机器智能可以帮助分析无线数据的一些变化 , 比如采用LSTM模型预测未来性能促进网络规划 。 基于时间序列分析 , 采用IPU能够比GPU有260倍的吞吐量提升 。
推荐阅读
- 酷潮科技范128位CPU为什么这么难?也许有生之年都难见到!
- 良心数码点评|128位CPU为什么这么难?也许有生之年都难见到!
- 产业气象站|散热效果大大下降,CPU硅脂应该这样涂!涂多了得不偿失
- 驱动之家 Win10优化Chrome:CPU运行效率提高、减少滚动卡死
- 微软|Win10优化Chrome:CPU运行效率提高、减少滚动卡死
- 畅远数码|联想小新Pro 13 2020锐龙版CPU多核负载测试报告
- 中国网直播|格力:网络出现大量不实报道
- 『CPU』顶级处理器+快充,这三款机型使用三年不卡顿
- #英特尔#只一天就为浪潮申请到CPU出口许可,英特尔的苦谁知道?
- 路人战队|Intel主流CPU对决丨实测对比9400F和9600KF,到底谁更值得买