驱动中国|新一代消费级显卡 GeForce RTX 30 系列出炉( 二 )
本文插图
Nvidia GeForce 性能对比 , 来源:ANANDTECH
这些显卡均支持 PCIe 4.0 , 还有 HDMI 2.1 和 DP 1.4a 等接口 , 并内含第二代光追核心 RTX Core、第三代张量核心 Tensor Core 。
本文插图
可以看到 , RTX 3090 和 RTX 3080 显存容量差距较大 , 这或许是在为稍后推出的 RTX 3080 Super 留位置 。 另外 , 3090 的 24G 内存和 1399 美元的价格或许能够让很多对深度学习有需求的用户省下买泰坦的预算 。 如果你真的想要「Titan Ampere」 , 预计它会是一个显存 40G , 售价 3000 美元的夸张显卡 。
另外需要注意的是 GPU 代工厂 , 今天发布的 GeForce RTX 30 系列均采用了三星的 8 纳米制程「英伟达定制工艺」 , 选择三星而不是台积电 , 不知是出于什么样的考虑 。
安培架构 , AI 算力再上台阶
这些强大的 GPU , 采用的都是今年 5 月刚刚推出的最新 7 纳米制程架构安培(Ampere) , 其首先被 Tesla A100 所采用 。
本文插图
在当时的 GTC 大会上 , 英伟达推出的安培架构计算卡 A100 , 成为了当时人类制造出的最大 7 纳米制程芯片 。 这块 AI 计算卡采用先进的台积电(TSMC)7 纳米工艺 , 拥有 540 亿个晶体管 , 它还是一块 3D 堆叠芯片 , 面积高达 826mm^2 , 最大功率达到了 400W 。
除了制程提高 , 安培架构还有一些针对 AI 计算特有的机制 , 其中的三代 Tensor Core 会对稀疏张量运算进行特别加速:执行速度提高一倍 , 也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算 , 现在你无需修改任何代码量化了 , 直接自动训练即可 。
本文插图
针对稀疏矩阵的加速可以让安培架构 GPU 处理 AI 任务的效率提高一倍
最终在跑 AI 模型时 , 如果用 PyTorch 框架 , 相比上一代 V100 芯片 , A100 在 BERT 模型的训练上性能提升 6 倍 , BERT 推断时性能提升 7 倍 。
不过由于消费级和专业级芯片的结构不尽相同 , 我们不能把 Ampere A100 芯片的 AI 训练性能简单地直接拿来作为参考 , 还需要等待官方公布 , 以及最终实测的数据 。
黄仁勋表示 , GeForce RTX 30 系列显卡具备三项基础处理技术:30TFLOPS 算力的可编程着色器(Turing 架构是 11) , 双倍吞吐量 , 用于光追的 RT Core(58 RT TFLOPS , Turing 架构是 34) , 以及可自动忽略次要 DNN 权重的 Tensor Core(238Tensor TFLOPS , 旧版为 89) 。
三个方面 , 性能相比前一代都是翻倍 。
本文插图
AI 是目前科技领域最强大的技术力量 , 可以让计算机从大量数据中学习知识 , 甚至据此编写出软件 。 在图形领域 , 我们仍然可以通过 Tensor Core 的力量增强视频的画面 。 「我们现在可以只计算低分辨率图像的光追 , 再用 Tensor Core 通过 DLSS 将其还原成高分辨率 , 同时还能提高画面帧率 。 」黄仁勋说道
英伟达通过自己的超级计算机训练了多种不同场景的图像 , 并将训练好的模型以显卡驱动的程序安置在你的电脑中 。 在游戏运行时 , AI 会通过上一帧高清图对现有低分辨图进行渲染 , 最终达到超过原画的效果 。 据介绍 , 在最新版的 DLSS 2.0 上 , Tensor Core 可以把 RTX 的性能提升一倍——这也意味着游戏的有效帧数可以变成两倍 , 现在光线追踪、高分辨率和高帧率可以同时拥有了 。
推荐阅读
- 今日经济|华星酷娱荣获中国文化产业“十大影响力品牌 ”
- 星魂国|特斯拉V3超级充电桩进入中国,可节约一半充电时间
- 中年|全球饮茶风尚兴起 你真的了解袋泡茶吗?
- |办公场景无处不在的黑科技,MAXHUB凭什么征服超一半中国500强?
- 新机发布|三星试图挽回中国市场,从S21系列就能看出决心有多大
- 中国新闻网|70余人团队耗时3年 中国医生助“云放疗”走进非洲马里
- 柏铭007|中国又一家芯片企业崛起,累计芯片出货量超100亿颗
- 小暖男石头哥|荷兰人:中国人不可怕!可怕的是永远搞不懂他们为何不在乎血统
- 行业互联网|移远通信携手中国移动举办5G行业终端扬帆计划闭门会
- 放疗|70余人团队耗时3年 中国医生助“云放疗”走进非洲马里