晶圆|这款用整块晶圆做的芯片:性能超乎想象

Cerebras Systems 及其晶圆级硬件由于其完全非传统的制造方法在业界引起了轰动 。他们没有像 AI 中的所有其他参与者一样构建一个专用于机器学习的大芯片,而是瞄准了一个完全不同的扩展途径 。
他们奉行将整个晶圆制成单个芯片的策略 。该硬件已显示出令人惊讶的多功能性,甚至在其他高性能计算应用程序中也取得了突破性进展 。
这是由一个简单的观察结果驱动的,即摩尔定律已经显著放缓 。大幅增加晶体管数量的唯一途径是增加每个芯片中的硅数量 。Cerebras 正在开发他们的第二代产品 Cerebras WSE-2,该芯片的尺寸为 215mm x 215mm 。
晶圆|这款用整块晶圆做的芯片:性能超乎想象
文章图片
与可用的最大 GPU Nvidia A100 相比,Cerebras 取得了巨大的优势,尤其是在将片上 40GB 的内存带宽与 A100 的类似大小的 HBM 内存进行比较时 。Cerebras 拥有令人难以置信的高结构带宽,远远超过 GPU 到 GPU 的互连 。
晶圆|这款用整块晶圆做的芯片:性能超乎想象
文章图片
Cerebras 通过在水冷机箱中提供它来驯服他们的 20KW 野兽 。作为参考,Nvidia A100 的功率范围从 250W 到 500W,具体取决于配置 。在创建这种冷却解决方案时必须特别小心 。由于该芯片的尺寸和功耗,诸如硅和其他组件的不同热膨胀等问题成为主要问题 。
晶圆|这款用整块晶圆做的芯片:性能超乎想象
文章图片
长期以来,半导体制造受限于裸片尺寸,一直受到掩模版的限制 。掩模版限制为 33 x 26,这意味着这是 ASML 的光刻浸入式步进器可以在晶片上图案化的最大尺寸 。Nvidia 最大的芯片都在 800mm^2 的低范围内,主要是因为超越这个范围是不可能的 。
Cerebras WSE 实际上是在掩模版限制范围内的晶圆上的许多芯片 。他们没有沿着芯片之间的划线将芯片切割开,而是开发了一种跨芯片线的方法 。这些导线与实际芯片分开图案化,并允许芯片相互连接 。实际上,芯片可以扩展到超出掩模版的限制 。
以经典方式构建芯片时,通常会存在缺陷 。因此,必须丢弃来自每个晶片的多个芯片或必须禁用芯片的元件 。Nvidia 通常将这种做法用于他们的 GPU 。每一代都存在禁用更大比例内核的持续趋势,而在当前一代 Ampere 中,大约有 12% 的内核被禁用 。
Cerebras 通过在每个标线子芯片(reticle sub-chip)上添加 2 行额外的核心来解决这个问题 。这些芯片内的互连是 2D 网格,其中每个核心在垂直和水平方向上连接 。它们还为每个对角线核心提供额外的互连 。这允许对有缺陷的核心进行布线,并且软件仍然可以识别 2D 网格 。
在这个 2D 网格中,Cerebras 设定了几个目标 。他们希望所有内存都保留在芯片上,而不必等待片外内存缓慢 。唯一的外部连接是到主机系统 。每个内核都有细粒度的并行性(fine grained parallelism ),彼此之间不共享任何内容 。它们是具有 MIMD 能力的节能通用内核,并拥有自己的本地存储器 。
主要用例是机器学习训练或推理 。网络层被映射到晶片大小的芯片区域 。每个矩形块对应一个层,有趣的是这被称为“Colorado” 。卷积、矩阵向量和矩阵乘法是在每一层的核心上计算的 。2D 网格处理网络每一层内和网络层之间的核心间通信 。
晶圆|这款用整块晶圆做的芯片:性能超乎想象
文章图片
大多数通信通常在沿芯片的 X 或 Y 方向进行,但有些通信需要跨越芯片的大部分 。网格可以处理这个而不会变得拥挤 。这允许网络中的层不必是连续的或彼此直接相邻 。
Cerebras 软件堆栈放置和路由这些层,同时保持核心和结构的高利用率 。该软件能够在单个芯片上仅放置几层网络,或者在芯片上放置整个网络的多个副本,以实现数据并行 。
Cerebras 的客户拥有实时生产的晶圆级引擎 。这些用于许多不同的工作负载,但最有趣的一种是 CANDLE 。WSE 用于精确模拟药物组合的药物反应及其对癌症的影响 。然后选择最有希望的模拟结果进行实验研究 。
目前在这些芯片上运行的另一个用例是内部限制融合 。它运行在一台大型超级计算机上,该计算机还包含多个互连的 Cerebras WSE 。这种大规模模拟的组成部分之一涉及原子和亚原子粒子之间的相互作用 。
该计算被一个在 Cerebras 硬件上运行的大型预训练神经网络所取代 。这是一个仅使用推理的用例 。它在模拟的每个时间步中都会被唤起 。数据从较大的超级计算机流式传输到 Cerebras WSE,后者又为这些原子和亚原子交互提供输出 。


推荐阅读