耕升RTX 3060 Ti追风评测 等风来不如追风去( 三 )


稀疏深度学习
Tensor Core可以看作是GeForce RTX GPU上的AI大脑 。 可加速用于深度神经网络处理功能的线性代数 , 这是现代AI的基础 。 例如用于AI超分辨率的NVIDIA DLSS和用于AI增强的声画处理技术NVIDIA Broadcast应用 。
在本次的NVIDIA Ampere架构的Tensor Core也得到了极大地加强 , 在第三代Tensor Core中 , NVIDIA引入了稀疏化加速 , 可自动识别并消除不太重要的DNN(深度神经网络)权重 , 同时依然能保持不错的精度 。
首先原始的密集矩阵会经过训练 , 删除掉稀疏矩阵 , 再经过训练稀疏矩阵 , 从而实现稀疏优化 , 进而提高Tensor Core的性能 。
与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO 。 目前很多游戏动辄几十G甚至百G的安装空间 , 对于存储空间的负担暂且不提 , 但存放在硬盘中的数据 , 如果显卡想要读取到 , 需要先由CPU从硬盘中读取压缩过的数据 , 经过解压缩再发送到显存中 。
虽然随着NVMe SSD的推出 , 读取速度相较机械硬盘能够快20倍 , 但受制于传统I/O限制 , NVMe高达7GB/秒的高速读写对于CPU是极大的负担 。
耕升RTX 3060 Ti追风评测 等风来不如追风去文章插图
传统的数据交换
在这个过程中 , 会占用多个CPU核心 , 压力急剧增大 , 占用较多的内存 , 而此时其实GPU是处于闲置状态的 。 RTX IO的作用就是越过CPU解压再传输数据这一步 , 直接从PCIE总线读取硬盘上经过压缩的数据 , 并且完成无损GPU解压 , 降低CPU占用 , 变向提升了性能 。
耕升RTX 3060 Ti追风评测 等风来不如追风去文章插图
RTX IO可以极大解放CPU负担
当然这项技术作为系统底层的运行方式改变 , 还需要借助微软发布的DirectStorage来实现 , 对于目前容量的游戏来说 , RTX IO的改善效果有限 , 但假以时日等游戏容量上百G成为常态的时候 , 这项技术将会发挥巨大的功效 。
同时搭配新增的HDMI 2.1接口 , 可以支持单线8K的视频输出 , 而上一代HDMI 2.0仅支持4K 98Hz的视频输出 , 如果想要连接8K电视 , 则需要更多的线缆支持 。
03 3DMARK 理论性能测试
首先介绍一下测试平台 , 为了保证此次评测能够发挥耕升GeForce RTX 3060 Ti追风显卡的最佳性能 , 主板和CPU采用了目前桌面旗舰级配置 , 具体如下 。
耕升RTX 3060 Ti追风评测 等风来不如追风去文章插图
在测试成绩上 , 基准测试采用3DMARK , 游戏性能测试使用游戏自带Benchmark , 同时为了减小误差 , 每项测试成绩均测试3遍取平均值 。
耕升RTX 3060 Ti追风评测 等风来不如追风去文章插图
GPU-Z参数
首先看一下GPU-Z的参数 , 软件更新到2.36已经可以正确显示核心并修复了纹理单元识别错误的情况 。 RTX 3060 Ti采用GA104核心 , 三星8nm工艺 , 芯片面积392平方毫米 , 拥有4864个CUDA , 耕升GeForce RTX 3060 Ti追风的频率与公版相同为1410-1665MHz 。 采用8GB GDDR6显存 , 位宽为256bit , 显存带宽达到了448GB/s , 光栅单元和纹理单元为80和152 。
下面先进行的是用来衡量显卡DX11理论性能的3DMARK FS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能 , 取显卡分数实际测试结果如下:
耕升RTX 3060 Ti追风评测 等风来不如追风去文章插图
3D MARK FS套装测试
在针对显卡DX11性能的3DMARK FS套装测试中 , 我们主要对比耕升GeForce RTX 3060 Ti追风和RTX 2080 SUPER , 整体来看各项成绩中均小幅领先RTX 2080 SUPER;各项成绩差值在1-4%之间 。


推荐阅读