Intel|5种工艺、1000+亿晶体管!Intel Xe HPC顶级计算卡秀肌肉
我们知道,Intel Xe GPU架构分为四个层级,或者说四种微架构,其中以上是的Xe LP低功耗版仅供核显、入门独显,即将到来的Xe HPG高性能图形版面向中高端游戏显卡,Xe HP高性能版适合加速计算、AI、ML等但所知最少,Xe HPC高性能计算版则是最顶级的存在,主攻大型数据中心、超算 。
文章图片
Xe HPG微架构的Alchmest(DG2)之前已经聊过了,这里来看看Xe HPC和首款产品Ponte Vecchio,竞争对手是NVIDIA A系列、AMD Instinct系列 。
当然,它们距离普通人非常非常遥远,但却是技术实力的最高体现 。
文章图片
Xe HPC架构的基础也是Xe核心(Xe Core),但因为面向的是计算而非图形,内部结构有所不同,包括8个512-bit矢量引擎、8个4096-bit矩阵引擎,数量对比Xe HPG都减半,但位宽分别翻了一倍、两倍,算力更凶猛 。
矢量引擎每时钟周期可执行256个FP32、256个FP64、512个FP16等数据操作,矩阵引擎则每时钟周期支持2048个FP32、4096个FP64、4096个BF16、8192个INT8 。
与矢量引擎、矩阵引擎搭档的,是一个更宽的宽加载/存储单元,每个时钟周期取回512字节数据 。
每个Xe核心集成512KB一级数据缓存,这是目前业内最大的,而且可以通过软件配置作为暂存区使用,又称共享内部显存 。
文章图片
Xe核心的上一层级叫做“切片”(Slice),不同于Xe HPG上的渲染器切片(Slice),毕竟一个是做计算,一个是做图形渲染 。
Xe HPC每个切片集成多达16个Xe核心,四倍于Xe HPG渲染切片的规模,同时还有8MB一级缓存、16个光追单元、一个硬件上下文(Hardware Context)单元,其中光追支持光线遍历、边界框相交、三角形相交,提供固定函数计算 。
硬件上下文单元大家可能比较陌生,它能让GPU同时执行多个应用,而无需昂贵的基于软件的文本切换 。
文章图片
切片的上一级则是“堆栈”(Stack),至此才算一个完整的GPU 。
一个堆栈包含4个切片,因此总计64个Xe核心、64个光追单元、4个硬件上下文 。
文章图片
同时,堆栈内还有大规模二级缓存、4个HBM2e内存控制器、1个媒体引擎、8个Xe链路,以及拷贝引擎、PCle控制器 。
文章图片
Xe HPC架构是可以轻松扩展的,支持多堆栈设计,属于业内首创,依靠的是EMIB封装和堆栈间互连通道,可保持堆栈之间的内存一致性 。
比如这是双堆栈,整体规模直接翻番,它就是后边要说的首款Ponte Vecchio,但看架构图,似乎不支持四堆栈 。
文章图片
不同的Xe HPC GPU之间通过Xe链路互连,支持最多8颗并行,算力直接暴力乘以8 。
文章图片
文章图片
Ponte Vecchio作为基于Xe HPC架构的首款产品,一切的一切都是全新的,包括验证方法、软件、可靠性方法、信号完整性机制、互连、供电、封装、I/O架构、内存架构、IP架构、SoC架构 。
Ponte Vecchio是个庞然大物,集成晶体管数量突破1000亿个,使用5种不同的制造工艺,在内部封装了多达47个不同的单元(Tile),包括计算单元、Rambo缓存单元、Foveros封装单元、基础单元、HBM单元、Xe链路单元、EMIB单元,等等 。
文章图片
如此复杂的芯片设计,面临的挑战自然是空前的,首席架构师Masooma Bhaiwala直言这是她30年来设计的最复杂的芯片,堪称制造奇迹 。
推荐阅读
- AMD|AMD Yes降温!Intel重新夺回x86处理器市场:12代酷睿太猛
- Intel|Intel Evo规范进化第三版:100多款笔记本、首次折叠屏
- Intel|Intel 12代酷睿低功耗P/U系列正式发布:轻薄本超过250款
- CPU处理器|IMEC造出0.8um工艺的处理器:频率71KHz 功耗低至0.01瓦
- 三星|三星5/4/3nm工艺拉胯:竟有人伪造良品率
- AMD|Intel 12代酷睿单核性能霸榜前十 AMD跌出25名:只能靠Zen4挽回了
- Intel|Intel 15代酷睿核显爆发:台积电3nm+320单元、目标直指苹果
- Intel|Intel 15代酷睿核显爆发:台积电3nm+320单元、重夺苹果芳心
- Intel|Intel Arc锐炫显卡全部亮相:能效超高!
- 苹果|能效提升66% 消息称苹果iPhone 14要上台积电6nm射频工艺:5G续航大增