ai芯片|高通,看见了AI芯片的“多面”


萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
【ai芯片|高通,看见了AI芯片的“多面”】AI芯片行业 , 正面临着层出不穷的需求 。
ai芯片|高通,看见了AI芯片的“多面”
本文插图

据Research and Markets预测 , 数据中心的AI芯片(即AI加速器)市场规模将从2018年的28.4亿美元 , 增长到2023年的211.9亿美元 。
AI芯片 , 分为训练和推理 , 前者用来“做模型”(跑大量数据、调整参数) , 后者则用来“出结果”(实时检测、目标跟踪) 。
“做模型”就像是产品加工 , 在“工厂”里完成 , 但模型出来后 , 就不局限在“工厂”中了 , 还能部署到手机、汽车等设备上使用 。
ai芯片|高通,看见了AI芯片的“多面”
本文插图

这里的“工厂” , 通常是云端 , 那里有大量服务器部署;而手机、汽车等设备 , 被称为边缘 (终端) , 也是AI模型真正需要用到的地方 。
可以看出 , AI训练芯片只靠绝对算力——只要算力越高 , 模型训练得就越快 。
但手机和汽车等设备 , 受体积、储能、实时等诸多限制和要求 , 算力已不再是单一的考虑条件 。
AI推理芯片不仅看算力 , 还要讲究时延、功耗和成本 。
相对于AI训练芯片 , AI推理芯片需求量更高 , 使用场景也更广泛 。

市调机构Tractica称 , 预计从2018到2025年的7年时间里 , AI推理芯片将有10倍的增长 , 至2025年可达170亿美元 。
ai芯片|高通,看见了AI芯片的“多面”
本文插图

事实上 , 无论是算力、还是硬件要求 , 边缘推理芯片的设计都要比云端更复杂 。
处在野蛮生长阶段的AI芯片市场 , 做好云端推理芯片已非易事 , 入局边缘芯片还会更难 。
但高通却做出了尝试 。
18个月 , 性能领跑行业
2019年4月 , 高通宣布推出Cloud AI 100芯片 , 称它是“为满足急剧增长的云端AI推理处理的需求而设计”、“让分布式智能可以从云端遍布至用户的边缘终端 , 以及云端和边缘终端之间的全部节点 。 ”
那时候 , 市场上也有部分人士持并不看好的态度 。 一些观点认为 , 2019年再入局云端AI芯片、并赶超最先进的云端AI推理芯片 , 似乎为时已晚 。
而18个月过后 , Cloud AI 100芯片在ResNet-50上的测试效果流出 , 引爆了行业内的深水炸弹 。
从图中来看 , 横轴是功耗(越小越好 , 图中右边更小);纵轴是吞吐量(越高越好) 。
ai芯片|高通,看见了AI芯片的“多面”
本文插图

即使是英伟达最新Ampere架构的A100芯片 , 吞吐量也不到25000 , 耗能却超过了300W 。
从功耗来看 , 英特尔的Goya可低达100W , 但吞吐量只能达到15000左右 。

相比之下 , 高通的Cloud AI 100 PCle , 吞吐量超过25000 , 却只需要75W 。
这样的芯片性能 , 听起来让人难以置信 。
而且 , 这个75W的芯片 , 支持最高每秒400万亿次(400TOPS)的算力 。
高通到底在云端AI推理芯片上“施了什么魔法”?
先来看看它的内部结构:
16个AI内核(AIC)
支持INT8 , INT16 , FP16和FP32
4个64位内存控制器(LPDDR4×)
144MB的片上SRAM高速缓存
也就是说 , 通道的总系统带宽为134GB/s , 但144MB的片上SRAM高速缓存设计 , 在片上保存了尽可能多的存储器流量 。
此外 , 7nm的工艺节点 , 也有助于降低功耗 。
而在封装上 , 高通采取了三种不同的形式:
DM.2e , 15W , 超过50 TOPS
DM.2 , 25W , 超过200 TOPS


推荐阅读