影驰RTX 3060Ti OC评测 80s终结者( 二 )


影驰RTX 3060Ti OC评测 80s终结者文章插图
第二代RTX架构 Ampere下的RTX 3060 Ti
相较于初代的Turing RTX架构 , NVIDIA Ampere架构在算力上有着成倍的增长 , 这一点在RTX 3060 Ti中依旧有体现 , 每个时钟执行2次着色器运算 , 而Turing为1次 , RTX 3060 Ti的着色器性能达到16.2 TFLOPS单精度性能 , 而Turing为7.2 TFLOPS 。
NVIDIA Ampere架构翻倍了光线与三角形的相交吞吐量 , RT Core达到31.6 RT TFLOPS , 而Turing为21.7 RT TFLOPS 。
全新的Tensor Core可自动识别并消除不太重要的DNN权重 , 处理稀疏网络的速率是Turing的两倍 , 算力高达129.6 Tensor TFLOPS , 而Turing为57.4 Tensor TFLOPS 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
RTX 3060 Ti采用GA104核心拥有174亿个晶体管 , 392平方毫米的面积 , 基于三星的8nm NVIDIA定制工艺 , 另外在RTX 3060 Ti中我们都知道仍然采用了GDDR6显存 , 不过不同于RTX 3080的Micron , RTX 3060 Ti采用了三星的GDDR6显存 。
我们在发布会中经常听到性能翻倍的说法 , 其实是因为本次NVIDIA Ampere架构的SM在Turing基础上增加了一倍的FP32运算单元 , 这就使得每个SM的FP32运算单元数量提高了一倍 , 同时吞吐量也就变为了一倍 。
而通常我们计算显卡的CUDA数量 , 并不是把SM中的所有单元加起来计数 , 而是只统计FP32单元的数量 , 所以这样一来 , SM中的【FP32 : INT32】 从 1:1 变为 2:1 。
RTX 3060 Ti共有4864个CUDA , 其实它有2432个INT32单元 , 但由于内部的FP32数量翻了一倍 , 所以最终实现了4864这个惊人的数字 。
而这样粗暴的提升CUDA数量对于游戏其实有着非常大的帮助 , 通常在游戏中浮点运算相比整数计算要常用的多 , 图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令 , 而FP32的加速也有助于光线追踪降噪着色器 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
光追工作原理示意
在此次的NVIDIA Ampere架构中 , NVIDIA官方宣布为第二代RT Core , 它和第一代有什么不同呢 。 首先要知道RT Core的工作原理是 , 着色器发出光线追踪的请求 , 交给RT Core来处理 , 它将进行两种测试 , 分别为边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing) 。 基于BVH算法来判断 , 如果是方形 , 那么就返回缩小范围继续测试 , 如果是三角形 , 则反馈结果进行渲染 。
而光线追踪最耗时的正是求交计算 , 因此 , 要提升光线追踪性能 , 主要是对两种求交(BVH/三角形求交)进行加速 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
RT Core的变化
在Turing的RT Core中 , 可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交 , 在第二代RT Core 里 , NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块 , 这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
运动模糊渲染原理
第二代RT Core可以让光线追踪与着色同时进行 , 进行的光线追踪越多 , 加速就越快 , 它将光线相交的处理性能提升了一倍 , 在渲染有动态模糊的影像时 , 按照NVIDIA自己的实测 , 比Turing快8倍 。
影驰RTX 3060Ti OC评测 80s终结者文章插图


推荐阅读