影驰RTX 3060Ti OC评测 80s终结者( 三 )


稀疏深度学习
Tensor Core可以看作是GeForce RTX GPU上的AI大脑 。 可加速用于深度神经网络处理功能的线性代数 , 这是现代AI的基础 。 例如用于AI超分辨率的NVIDIA DLSS和用于AI增强的声画处理技术NVIDIA Broadcast应用 。
在本次的NVIDIA Ampere架构的Tensor Core也得到了极大地加强 , 在第三代Tensor Core中 , NVIDIA引入了稀疏化加速 , 可自动识别并消除不太重要的DNN(深度神经网络)权重 , 同时依然能保持不错的精度 。
首先原始的密集矩阵会经过训练 , 删除掉稀疏矩阵 , 再经过训练稀疏矩阵 , 从而实现稀疏优化 , 进而提高Tensor Core的性能 。
与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO 。 目前很多游戏动辄几十G甚至百G的安装空间 , 对于存储空间的负担暂且不提 , 但存放在硬盘中的数据 , 如果显卡想要读取到 , 需要先由CPU从硬盘中读取压缩过的数据 , 经过解压缩再发送到显存中 。
虽然随着NVMe SSD的推出 , 读取速度相较机械硬盘能够快20倍 , 但受制于传统I/O限制 , NVMe高达7GB/秒的高速读写对于CPU是极大的负担 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
传统的数据交换
在这个过程中 , 会占用多个CPU核心 , 压力急剧增大 , 占用较多的内存 , 而此时其实GPU是处于闲置状态的 。 RTX IO的作用就是越过CPU解压再传输数据这一步 , 直接从PCIE总线读取硬盘上经过压缩的数据 , 并且完成无损GPU解压 , 降低CPU占用 , 变向提升了性能 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
RTX IO可以极大解放CPU负担
当然这项技术作为系统底层的运行方式改变 , 还需要借助微软发布的DirectStorage来实现 , 对于目前容量的游戏来说 , RTX IO的改善效果有限 , 但假以时日等游戏容量上百G成为常态的时候 , 这项技术将会发挥巨大的功效 。
同时搭配新增的HDMI 2.1接口 , 可以支持单线8K的视频输出 , 而上一代HDMI 2.0仅支持4K 98Hz的视频输出 , 如果想要连接8K电视 , 则需要更多的线缆支持 。
04 强大核心 出厂超频 用料厚道
首先介绍一下测试平台 , 为了保证此次评测能够发挥影驰 RTX 3060 Ti金属大师 OC 显卡的最佳性能 , 主板和CPU采用了目前桌面旗舰级配置 , 具体如下 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
配置信息
首先看一下GPU-Z的参数 , 影驰 RTX 3060 Ti 金属大师 OC 显卡使用了GA104芯片 , 芯片采用8nm工艺制成 , 拥有4864组CUDA核心 , 其核心频率为1410-1750MHz , 进行了出厂超频 , 比公版性能更强 。 显卡采用8GB GDDR6显存 , 位宽为256bit , 显存带宽达到了448GB/s , 光栅单元和纹理单元为80和152 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
GPU-Z参数
下面先进行的是用来衡量显卡DX11理论性能的3DMARK FS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能 , 取显卡分数实际测试结果如下:
影驰RTX 3060Ti OC评测 80s终结者文章插图
3D MARK FS套装测试
在针对显卡DX11性能的3DMARK FS套装测试中 , 我们主要对比影驰 RTX 3060 Ti 金属大师 OC和RTX 2080 SUPER , 整体来看各项成绩中均小幅领先RTX 2080 SUPER 。
影驰RTX 3060Ti OC评测 80s终结者文章插图
3D MARK TS套装测试
而在针对DX12环境下的Time Spy和Time Spy Extreme测试中 , 影驰 RTX 3060 Ti 金属大师 OC同样全面领先于RTX 2080 SUPER , 领先幅度在5%左右 。


推荐阅读