司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB
_本文原题:Graphcore二代IPU发布 , 7nm制程片上存储高达900MB
2020年7月15日 , Graphcore(中文名称:拟未)在布里斯托和北京同步推出了两款硬件产品 。
第二代 IPU(智能处理单元)——Colossus? MK2 GC200 和基于前者、可用于大规模集群系统的 IPU-Machine——M2000 。 同时 , 他们还宣布同金山云达成合作 , 并已推出面向开发者的 IPU 云服务 。
专门为人工智能计算设计
从名字就可以看出 , Graphcore 的 IPU 产品是专门为人工智能计算所设计 , 在这个赛道 , IPU 被其缔造者们认为具有天然的优势 。
据悉 , 本次发布的 GC200 仍然延续了第一代的“同构众核”架构 , 所不同的是 , 制造工艺从 16nm , 提升为最新的 7nm 。
得益于此 , 加之技术迭代 , GC200 的处理器片上存储从 300MB 提升到了 900MB , 晶体管数量更是达到了惊人的 594 亿(裸片823平方毫米) , 较 NVIDIA 今年5月发布最新旗舰 A100 的 540 亿还要多 。
它的处理器核心从上一代的 1217 提升到了 1472 , 能够执行 8832 个单独的并行线程 , 系统性能提升了 8 倍以上 。
本文插图
图 | GC200
在数据处理方面 , GC200 也延续了之前的高带宽高容量表现 , 这对于应对一些复杂的 AI 模型及算法很有帮助 , 官方声明它足以支持具有数千亿个参数的最大模型 。
通信方面 , Graphcore 推出了自创的 AI 专属的 IPU-FABRIC 横向扩展结构 。
官方表示 , 该结构的延迟为 2.8Tbps , 最多支持 64000 个 IPU 之间的横向扩展 。
M2000 是 Graphcore 推出的基于 GC200 的刀片型服务器 , 每片能提供 1PetaFlop 的算力支持 。 M2000 可以被看作是 Graphcore IPU 系统产品部署的最小单元 , 基于它可以很方便地创建各种规模的集群 。
本文插图
图 | M2000
性能PK
Graphcore 对外一直宣传 IPU 可以同时进行很好的“训练”和“推理” , 本次其官方虽然因对标的 A100 未公布结果而无法对比 , 但通过与自家上一代的对比 , 仍能间接看出明显的进步 。
本文插图
图 | BERT-Base:Inference(C2 & V100)
可以看到 , 在 NLP 中 , 相同框架的情况下进行推理运算 , NVIDIA V100 表现仅为 C2 的一半 。
本文插图
图 | BERT-Base:Training(C2 & V100)
C2 的训练时间较 V100 缩短 25% , 耗费 36.3小时 。
本文插图
图 | 百度 DEEP VOICE3 训练(C2 & GC200 & V100)
同样的条件 , 一代 C2 较 V100 提高了6.8倍 , GC200 较 V100 提高了14.8倍 。
本文插图
图 | C2 & GC200
综上 , 第一代IPU 相较于 NVIDIA 上代旗舰 V100 的表现可圈可点 , 而二代 IPU GC200 的表现与 C2 相比有了 7 倍以上的提升 。
【司马半芹Graphcore二代IPU发布,7nm制程片上存储高达900MB】可凡事也总有两面 , GC200 同构众核的设计方案 , 虽然非常擅长处理大规模的并行计算 , 但也并非没有弱点 , 如在做稠密矩阵这类并行特征较弱运算时表现就要稍逊 。
推荐阅读
- 氯澎聊历史|雅典人究竟有多野?,把全国富二代拉去打仗
- 富二代|富二代执意弃美回国,带领中国一个行业赶超世界,然而却惨遭灭门
- 变形计|假装富二代只为上《变形计》,家境普通,非要玩有钱人的游戏
- 水平的快乐|公婆脸都气绿!结局大反转,华裔“独眼”美女嫁给非洲富二代
- 海峡网|李佳琦是谁怎么火的 李佳琦是富二代吗家庭背景资料介绍
- 司马半芹京标标助力商家成长-匹配适合的服务商
- 明星八卦|隐瞒34年, 她的父亲竟然是陈道明, 多年来不拼爹, 堪称最励志的星二代
- 李雪健|他竟然是李雪健的亲儿子,非常低调的星二代,出道多年鲜有人知
- 莫某|扫黑办收到富二代悔过书:我赌输了家里的六千万,还欠近千万债务
- 扫黑办收到富二代悔过书:我赌输了家里的六千万