『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐

环顾历史名将如拿破仑、隆美尔 , 乃至波斯湾战争的美国陆军将领 , 一谈到「攻势」 , 几乎无不强调「追击」的重要 , 让敌军毫无站稳脚跟巩固和重组的机会而一泻千里 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
【『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐】反过来说 , 当这简单道理套用到商业竞争 , 意义就不外乎「产品如果无法准时到位(TimeToMarket)」 , 特别是在人工智能这种一堆人还搞不清楚状况的新兴应用领域 , 或像半导体这种成本和售价会随技术演进快速滑落的产业 , 很可能一下子就被竞争对手一举冲垮 , 让产品开发工作左右为难 , 无法建立一条稳固的市占率防线 , 接着陷入恶性循环 , 难以翻身 。
2016年3月5日:nVidia发表「总算摆脱了4年的台积电28纳米制程」、推进到台积电16纳米和三星14纳米Pascal , 支持FP16半精确度浮点、8位元整数与相对应的内积向量指令(VectorDotProduct) , 也具备NVLink连接8颗GPU的延展性 , 踏出nVidiaGPU进入人工智能应用的第一步 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
2016年5月GoogleI/O:Google发表第一代推论用的第一代TPU 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
2016年夏天:英特尔并购「声称产品性能将比GPU高至少10倍」的Nervana , 就为了跟nVidiaGPU竞争 。
2016年11月17日:英特尔公开Nervana代号LakeCrest的初步成果 , 但制程仍停留在台积电28纳米 , 且过没多久就因nVidia推出Volta而失去意义 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
2017年3月29日:nVidia发表采用TegraX2的「嵌入式人工智能运算装置」JetsonTX2 , 严格说来也算是nVidiaGPU应用的延伸 , 但早从2014年4月底就出现的Jetson产品线 , 怎么看都有一股「几年来替进攻手机平板都以失败收场的Tegra系统单芯片找出路」的味道 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
2017年5月GoogleI/O:Google继续「按表操课」发表支持浮点运算(Bfloat16浮点格式)、可同时用于训练和推论的第二代TPU 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
2017年6月21日:nVidia公开台积电12纳米制程「原本产品时程表并没有」的Volta , 内建640个TensorCore(张量核心) , 可执行4×416位元浮点乘积和 , 应用于特征识别的卷积运算(ConvolutionalNeuralNetwork , CNN) , 这让Volta成为nVidia史上首款针对人工智能量身订做、兼顾「学习/训练」与「推论/预测」的GPU微架构 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
Volta的训练效率高达Pascal的12倍 , 推论性能也达6倍 , 这让Nervana的「LakeCrest至少有GPU十倍」变得毫无意义 , nVidia也借由NVswitch打造出16颗GPU、数量为DGX-1两倍的DGX-2 , 英特尔只能重新设计产品 , 也一再延误开发时程 , 直到承诺2019年底推出新芯片 , 届时距离并购案已超过3年 。
『数码狂人』GPU 背影的英特尔,在人工智能芯片战场追逐
文章图片
2017年8月14日:AMD发表「早就简报讲很久」的Vega(GlobalFoundry14纳米制程) , 支持FP16/INT16/INT8包裹式(Packed)计算 , 并锁定FP16与INT8精度 , 新增约40个新指令 , 也为影像匹配此类应用 , 提供SAD(SumofAbsoluteDifferences , 绝对误差和算法)指令 。 AMD当然也会宣称「拥有完整的SoftwareStack」 , 至于成效如何 , 就请各位自由心证 , 笔者不予评论 。


推荐阅读