【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔


环顾历史名将如拿破仑、隆美尔 , 乃至波斯湾战争的美国陆军将领 , 一谈到「攻势」 , 几乎无不强调「追击」的重要 , 让敌军毫无站稳脚跟巩固和重组的机会而一泻千里 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

反过来说 , 当这简单道理套用到商业竞争 , 意义就不外乎「产品如果无法准时到位(Time To Market)」 , 特别是在人工智能这种一堆人还搞不清楚状况的新兴应用领域 , 或像半导体这种成本和售价会随技术演进快速滑落的产业 , 很可能一下子就被竞争对手一举冲垮 , 让产品开发工作左右为难 , 无法建立一条稳固的市占率防线 , 接着陷入恶性循环 , 难以翻身 。
2016 年 3 月 5 日:nVidia 发表「总算摆脱了 4 年的台积电 28 纳米制程」、推进到台积电 16 纳米和三星 14 纳米 Pascal , 支持 FP16 半精确度浮点、8 位元整数与相对应的内积向量指令(Vector Dot Product) , 也具备 NVLink 连接 8 颗 GPU 的延展性 , 踏出 nVidia GPU 进入人工智能应用的第一步 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

2016 年 5 月 Google I/O:Google 发表第一代推论用的第一代 TPU 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

2016 年夏天:英特尔并购「声称产品性能将比 GPU 高至少 10 倍」的 Nervana , 就为了跟 nVidia GPU 竞争 。
2016 年 11 月 17 日:英特尔公开 Nervana 代号 Lake Crest 的初步成果 , 但制程仍停留在台积电 28 纳米 , 且过没多久就因 nVidia 推出 Volta 而失去意义 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

2017 年 3 月 29 日:nVidia 发表采用 Tegra X2 的「嵌入式人工智能运算装置」Jetson TX2 , 严格说来也算是 nVidia GPU 应用的延伸 , 但早从 2014 年 4 月底就出现的 Jetson 产品线 , 怎么看都有一股「几年来替进攻手机平板都以失败收场的 Tegra 系统单芯片找出路」的味道 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

2017 年 5 月 Google I/O:Google 继续「按表操课」发表支持浮点运算(Bfloat16 浮点格式)、可同时用于训练和推论的第二代 TPU 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

2017 年 6 月 21 日:nVidia 公开台积电 12 纳米制程「原本产品时程表并没有」的 Volta , 内建 640 个 Tensor Core(张量核心) , 可执行 4×4 16 位元浮点乘积和 , 应用于特征识别的卷积运算(Convolutional Neural Network , CNN) , 这让 Volta 成为 nVidia 史上首款针对人工智能量身订做、兼顾「学习/训练」与「推论/预测」的 GPU 微架构 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

Volta 的训练效率高达 Pascal 的 12 倍 , 推论性能也达 6 倍 , 这让 Nervana 的「Lake Crest 至少有 GPU 十倍」变得毫无意义 , nVidia 也借由 NVswitch 打造出 16 颗 GPU、数量为 DGX-1 两倍的 DGX-2 , 英特尔只能重新设计产品 , 也一再延误开发时程 , 直到承诺 2019 年底推出新芯片 , 届时距离并购案已超过 3 年 。

【数码狂人】在人工智能芯片战场追逐 GPU 背影的英特尔
本文插图

2017 年 8 月 14 日:AMD 发表「早就简报讲很久」的 Vega(Global Foundry 14 纳米制程) , 支持 FP16 / INT16 / INT8 包裹式(Packed)计算 , 并锁定 FP16 与 INT8 精度 , 新增约 40 个新指令 , 也为影像匹配此类应用 , 提供 SAD(Sum of Absolute Differences , 绝对误差和算法)指令 。 AMD 当然也会宣称「拥有完整的 Software Stack」 , 至于成效如何 , 就请各位自由心证 , 笔者不予评论 。


推荐阅读