AMD|别笑“胶水多核”:单芯处理器快走到尽头了( 二 )


由于大多数主要制造商已就 2.5D 小芯片到小芯片通信标准达成一致,这种集成的势头可能只会增长 。
但是,要像在同一个芯片上一样将真正大量的数据传输出去,您需要更短、更密集的连接,而这只能通过将一个芯片堆叠在另一个芯片上来实现 。面对面连接两个芯片可能意味着每平方毫米有数千个连接 。
它需要大量的创新才能使其发挥作用 。工程师必须弄清楚如何防止堆栈中一个芯片的热量杀死另一个芯片,决定哪些功能应该去哪里以及应该如何制造,防止偶尔出现的坏小芯片导致大量昂贵的哑系统,并处理随之而来的是一次解决所有这些问题的复杂性 。
以下是三个示例,从相当简单到令人困惑的复杂,展示了 3D 堆叠现在的位置:
AMD 的 Zen 3
AMD 的 3D V-Cache 技术将一个 64 兆字节的 SRAM 缓存 [红色] 和两个空白结构小芯片连接到 Zen 3 计算小芯片上 。
长期以来,PC 都提供了添加更多内存的选项,从而为超大型应用程序和数据繁重的工作提供更快的速度 。由于 3D 芯片堆叠,AMD 的下一代 CPU 小芯片也提供了该选项 。当然,这不是售后市场的附加组件,但如果您正在寻找具有更多魅力的计算机,那么订购具有超大缓存内存的处理器可能是您的选择 。
尽管Zen 2和新的Zen 3处理器内核都使用相同的台积电制造工艺制造——因此具有相同尺寸的晶体管、互连和其他一切——AMD 进行了如此多的架构改动,这让他们即使没有额外的高速缓存的前提下,Zen 3也能平均提供 19% 的性能提升 。
其中一个架构瑰宝是包含一组硅通孔 (TSV),垂直互连直接穿过大部分硅 。TSV 构建在 Zen 3 的最高级别缓存中,即称为 L3 的 SRAM 块,它位于计算小芯片的中间,并在其所有八个内核之间共享 。
在用于数据繁重工作负载的处理器中,Zen 3 晶圆的背面被减薄,直到 TSV 暴露出来 。然后使用所谓的混合键合将一个 64 兆字节的 SRAM 小芯片键合到那些暴露的 TSV 上——这一过程类似于将铜冷焊在一起 。
结果是一组密集的连接可以紧密到 9 微米 。最后,为了结构稳定性和热传导,附加空白硅芯片以覆盖 Zen 3 CPU 芯片的其余部分 。
通过将额外的内存设置在 CPU 芯片旁边来添加额外的内存不是一种选择,因为数据需要很长时间才能到达处理器内核 。“尽管 L3 [缓存] 大小增加了三倍,但 3D V-Cache 仅增加了四个 [时钟] 周期的延迟——这只能通过 3D 堆叠来实现,” AMD 高级设计工程师 John Wuu表示 。
更大的缓存在高端游戏中占有一席之地 。使用台式机锐龙 CPU 和 3D V-Cache 可将 1080p 的游戏速度平均提高 15% 。它也适用于更严肃的工作,将困难的半导体设计计算的运行时间缩短了 66% 。
Wuu 指出,与缩小逻辑的能力相比,业界缩小 SRAM 的能力正在放缓 。因此,您可以预期未来的 SRAM 扩展包将继续使用更成熟的制造工艺制造,而计算芯片则被推向摩尔定律的前沿 。
Graphcore 的 Bow AI 处理器
即使堆栈中的一个芯片上没有单个晶体管,3D 集成也可以加快计算速度 。总部位于英国的 AI 计算机公司Graphcore仅通过在其 AI 处理器上安装供电芯片,就大幅提高了其系统性能 。添加供电硅意味着名为 Bow 的组合芯片可以运行得更快(1.85 GHz 与 1.35 GHz 相比),并且电压低于其前身 。
与上一代相比,这意味着计算机训练神经网络的速度提高了 40%,能耗降低了 16% 。重要的是,用户无需更改其软件即可获得这种改进 。
电源管理芯片由电容器和硅通孔组合而成 。后者只是为处理器芯片提供电力和数据 。真正与众不同的是电容器 。与 DRAM 中的位存储组件一样,这些电容器形成在硅中又深又窄的沟槽中 。由于这些电荷储存器非常靠近处理器的晶体管,因此功率传输变得平滑,从而使处理器内核能够在较低电压下更快地运行 。
如果没有供电芯片,处理器必须将其工作电压提高到高于其标称水平才能在 1.85 GHz 下工作,从而消耗更多的功率 。使用电源芯片,它也可以达到该时钟频率并消耗更少的功率 。
用于制造BoW的制造工艺是独一无二的,但不太可能保持这种状态 。大多数 3D 堆叠是通过将一个小芯片粘合到另一个小芯片上来完成的,而其中一个仍然在晶圆上,称为晶圆上芯片 [参见上面的“AMD 的 Zen 3”] 。
相反,Bow 使用了台积电的晶圆对晶圆,其中一种类型的整个晶圆与另一种类型的整个晶圆键合,然后切割成芯片 。Graphcore 首席技术官Simon Knowles表示,这是市场上第一款使用该技术的芯片,它使两个裸片之间的连接密度高于使用晶圆上芯片工艺所能达到的密度 。


推荐阅读