测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能( 七 )


其实如果公版一出 , 可能就没人买AIC的卡了 , 毕竟公版这设计和售价估计谁都抵挡不住 。
NVIDIA Ampere架构与RTX 30系显卡详解:大幅性能提升是怎样来的?
CUDA核心再改 , 实现翻倍CUDA数?
三张显卡发布后 , 大家最热议讨论的应该就是CUDA核心数了 , 还记得同事最深刻的一句感叹:“有生之年我想看到CUDA数能做到一万 , 结果没想到这么快就来了 。 ”
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

确实 , RTX 3080虽然算是RTX 2080的对位产品 , 但按官网规格来看 , CUDA数却直接多了快两倍了 , 对比RTX 2080 Ti也几乎翻倍 , 这两年里英伟达技术进步快得这么离谱了吗?
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

Turing架构SM单元示意图 , 图中FP32区域每个小框框=1个FP32单元
先讲讲CUDA怎么算的:CUDA数=FP32单元数 。
一直以来CUDA核心数的计算方式是一个SM模块下的FP32运算单元个数 ,在我们固有印象中 , INT(整数运算单元)和FP(浮点运算)组合才算是一个处理器单元 , 但因为大部分运算性能(比如游戏计算)主要考察FP32单元性能 , 所以老黄从Fermi架构开始 , 其实就直接用FP32单元=CUDA核心这样的计算方式 , 沿用至今 。
以Turing示例 , 每SM单元有64个CUDA核心 , 看上图数FP32的格子就能数出64个FP32单元 。
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

NVIDIA Ampere架构图 , FP32+INT32同步运算
而到了这代NVIDIA Ampere架构后 , 布局结构与Turing是差不多的 , 中间的一组数据路径依然是全FP32单元设计 , 而左边的数据路径则变成了“FP32+INT32” , 对于新SM单元是怎么工作的 , 英伟达内容与技术副总裁Tony Tamasi在Reddit上作出了解释:
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

Tony Tamasi:
(红线部分)一组数据路径包含16组FP32 CUDA核心 , 每个时钟周期可以执行16条FP32指令;
另一条路径包含16个FP32和16个INT32核心 。
得益于新设计 , 每个SM单元里的分区可以选择在每个时钟周期内执行32条FP32指令 , 或者是16条FP32+16条INT32指令 。
换算下来 , 一个SM单元可以在每个时钟周期执行128条FP32指令 , 是Turing架构的两倍 。 或者是 , 每个时钟周期执行64条FP32+64条INT32 。
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

RTX 3080核心示意图 , 总共68组SM单元
128个FP32 , 那相对于Turing , 每个SM单元的FP32数量就是翻倍了 。 而按照FP32=CUDA核心数的计算方式 , 那也确实没错 , 68组SM单元x每单元128个FP32=8704 , 就是官方标称的CUDA核心数了 。
那么 , CUDA核心翻倍 , 是否意味着性能翻倍呢?如果纯理论FP32计算的时候 , 是的 。 但在游戏中 , 虽然FP32用得很多 , 也有包括INT在内的多种运算情况 , 十分复杂 。 所以游戏里两倍性能提升几乎不可能存在 。
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

话说回来 , 在官网上看到NVIDIA Ampere架构的简介 , 写的是“2倍FP32吞吐量” , 而不是直接标注两倍FP32数量 , 估计是考虑到翻倍可能会曲解意思 , 毕竟只有单独计算FP32时才能有翻倍的性能 。
不过这种FP32翻倍的设计能大大提升运算效率 , 且在实际应用场景中能在不少地方体现出来 , 也是这次NVIDIA Ampere架构GPU能大幅超越上代Turing架构GPU的主要原因 。
三星定制8nm制程 , 芯片效能跃进
英伟达似乎很久没有提升它们显卡的工艺技术了 , 从Pascal的TSMC 16nm , 到Turing的12nm FFN(其实算是16nm的改良版) , 相比于AMD从GF 12nm提升至TSMC 7nm , 英伟达这边的产品并没有太大的工艺提升 。
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

虽然NVIDIA Ampere架构升级工艺是板上钉钉的事 , 但英伟达首先给我们放了个烟雾弹:5月份发布的GA100使用的是TSMC 7nm工艺 , 让大家以为RTX 30系显卡使用的是一样的工艺 。 等到发布会 , 大家才知道用的是三星8nm工艺 。
虽然书面上是三星8nm , 但实际上它是三星10nm工艺改良而来 。
测评盘点|RTX 3080首测:半价获得比上代旗舰强30%的性能
文章图片

图源igor's LAB
RTX 3080(GA102)628mm2的芯片尺寸内塞进了280亿个晶体管 , 与之相比的是上代的RTX 2080 Ti , 则是754mm2内 , 只有186亿个晶体管 , 密度几乎翻倍 , 而对比采用了TSMC 7nm的GA100 , 826mm2的面积里塞下了540亿个晶体管 。


推荐阅读