AMD|主流显卡新架构,涵盖架构内容,优势以及具体应用( 二 )
文章图片
文章图片
英伟达最新架构 :安培“Ampere”架构
黄老板展示的安培(Ampere)架构 GPU 系统以最新英伟达 Tesla A100 芯片组成 , 被认为是迄今为止 GPU 算力最大的一步提升 , 据黄老板讲 , A100 是迄今为止人类制造出的最大 7 纳米制程芯片 。A100 采用目前最先进的台积电(TSMC)7 纳米工艺 , 拥有 540 亿个晶体管 , 它是一块 3D 堆叠芯片 , 面积高达 826mm^2 , GPU 的最大功率达到了 400W 。
文章图片
文章图片
这块 GPU 上搭载了容量 40G 的三星 HBM2 显存(比 DDR5 速度还快得多 , 就是很贵) , 第三代 Tensor Core 。同时它的并联效率也有了巨大提升 , 其采用带宽 600GB/s 的新版 NVLink , 几乎达到了 10 倍 PCIE 互联速度 。随着安培架构出现的三代 Tensor Core 对稀疏张量运算进行了特别加速:执行速度提高了一倍 , 也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速系统会自动将数据转为 TF32 格式加速运算 , 现在你无需修改任何代码量化了 , 直接自动训练即可 。GPC单元屏蔽了整整一组 , 但剩余的也并未全部开启 , 其中两组GPC也各自屏蔽了一个TPC(两组SM) , 导致总的SM单元为108个、流处理器为6912个、Tensor核心为432个 。核心加速频率1410MHz , 比前两代其实都低了 , 但整体性能在飞跃 。显存也没有逃过刀法 , 只开启了五组HBM2 , 所以总容量为40GB , 总位宽为5120-bit , 频率1215MHz , 带宽1555GB/s , 比上代增加73% 。
文章图片
文章图片
基于A100的系统可以扩展到数十、数百或数千个A100 , 用于计算集群、云实例或超大型超级计算机 , 从而满足多种类型的应用程序和工作负载的加速需求 。尤其是GA100架构中的计算单元结构优化 , 包括支持新精度和结构化稀疏 , 本质上是在围绕AI和HPC的特性在做文章 。正如NVIDIA近年来所强调的 , 它已从一家纯粹的显卡公司进化为一系列AI与HPC计算解决方案的提供商 。无论是计算与内存结构的升级 , 还是互联技术的迭代进化 , 都与NVIDIA积累的强大研究和工程能力密不可分 。这些技术进步所带来的更强算力 , 将催化AI、5G、数据科学、机器人、基因组学、金融分析等诸多领域的创新研究与应用进程 。当许多公司还以超越NVIDIA V100算力为目标时 , NVIDIA已经冲向计算的下一个纪元 。
文章图片
文章图片
A100
推荐阅读
- 行业互联网|AMD 新增一位全球院士:仅 7 人获此殊荣
- 英特尔,AMD|116项对比测试:Intel免费提速6% 一对比尴尬了
- 英特尔,AMD|苹果首颗自研处理器不挤牙膏:Intel/AMD要难受了?
- 英特尔|AMD的“战后日本”之路好走,还是华为之路好走?
- AMD,英特尔|又一批第十代酷睿CPU来了 这个全新i9价格有点香
- AMD|AMD的“战后日本”之路好走,还是华为之路好走?
- 英特尔|苹果首颗自研处理器不挤牙膏:Intel/AMD要难受了?
- AMD|AMD显卡鲁大师排名靠前,总排名第20的显卡不足1500元
- 新机发布|小米新专利曝光!超大单摄+瀑布屏,网友:违背了主流的多摄方向
- AMD|PS5果然有惊喜 内部信息曝光真让人意外