DT Value|NVIDIA安培GPU:从TOP500走向云智应用( 五 )
说到外部存储器 , A100的HBM2容量也扩充至40GB , HBM2堆栈和内存控制器的数量相对V100的增长幅度同为25% , 所以性能增长主要来自单组HBM2堆栈与内存控制器的能力提升 。 凭借更高的运行频率 , A100的内存带宽达到1555GB/s , 比V100高出73% , 如果后期A100的良率改善到可以完整的提供12个512位内存控制器和6个HBM2堆栈 , 理论上其内存带宽就可以达到V100的2倍以上 , 而不仅仅是HBM2内存容量增长到48GB 。
本文插图
A100还通过引入计算数据压缩的功能 , 进一步提高有效带宽和容量 。 当数据中有足够多的0或相似字节 , 2个连续的缓存行(8个扇区)可以被压缩2倍(4个扇区)或4倍(2个扇区) , 在处理细粒度的非结构化稀疏数据时 , 可以获得最高4倍的内存和L2带宽节省 , L2容量也有2倍的节省 。 计算数据压缩功能是无损压缩 , 适用的数据类型也没有结构化稀疏那么严格 , 可以在更大范围内发挥作用 。
Cloud:生而为云 , 做七望八 | MIG
经过硬件升级和软件优化的双管齐下 , A100的性能比V100有了成倍的提升:AI训练达到3倍(FP16)乃至6倍(FP32) , 推理更高达7倍——以此为参照 , HPC场景1.5~2.1倍的性能简直可以说是“平平无奇”了 。
本文插图
不过 , 这也带来了一个现实的问题 。 不像HPC , AI的场景与云的模式更为契合 , 因为有些计算任务(特别是推理)并不需要超强的处理能力 , 用不到一个GPU的全部资源 , 能够将一个GPU上的资源分配给多个用户或应用更为重要 。 随着A100的性能达到一个新的水平 , 这种“一分为多”的需求也就愈发迫切起来 。
V100通过引入硬件加速的MPS(Multi Process Service , 多进程服务)将一个GPU分配给多个进程 , 但是在内存系统资源的隔离上不够彻底 , 对DRAM带宽或L2 Cache需求过高的应用(即虚拟化领域常说的“吵闹的邻居”)会干扰到其他应用 , 也就是QoS(Quality of Service , 服务质量)无法保证 。 由于没有提供足够的硬件资源隔离 , 云服务提供商不能通过MPS把GPU分享给多个用户使用 。
本文插图
又一个逻辑分区对物理分区
前面提到的MIG(Multi-Instance GPU , 多实例GPU)是A100针对MPS的不足而引入的新功能 , 一个A100最多可以被切分为7个GPU实例 , 每个都有自己的计算单元(SM)和存储单元(L2 Cache、DRAM和带宽)以保证硬件QoS和隔离 , 从而能分配给多个用户或租户使用 。
本文插图
SM已经按照GPC分区了 , 所以L2 Cache加入“物理分区”功能就很重要
全部的MIG实例能够以可预测的吞吐量和延迟并行运行 , 从这个角度来看 , 可以把MIG实例当成独立的GPU单元 , 不同数量(如1/2/4个 , 上面MPS对比图右侧)的MIG实例可以灵活组合起来 , 分配给不同的用户和应用 , 也就是NVIDIA所宣称的Scale-out(横向扩展)——不过 , 如果站在(A100)GPU的角度 , 用相对小众的Scale-in来称呼似乎更为严谨一些 。
至于MIG功能为什么可以将A100切分为7份 , 当然不是因为其(推理)性能7倍于V100 , 每一份都可以当V100用 。
本文插图
虚位以待第8个GPC
MIG的切分是以GPC为单位的 , 依次划拨相应的存储资源 , 所以它充分考虑到A100的现状 , 只要求每个GPC有7个TPC、14个SM , 而当前A100的所拥有的GPC也是7个 , 可以切分出来的GPU实例自然是7个 。 考虑到有些GPC能达到8个TPC、16个SM的“完全态” , 在某些关于MIG的示意图里 , 我们可以看到有少数多出来的硬件资源 , 不在7个GPU实例之内 。
推荐阅读
- |Google借助计算引擎A2 VMs在云中推出了首批NVIDIA Ampere A100 GPU
- DT Value|远程办公“拚”什么成为企业核心竞争力?
- 联想笔记本|联想Yoga Slim 7系列曝光:Intel 11代酷睿配NVIDIA MX450独显
- AMD|严重缺货大涨价!NVIDIA、AMD显卡一起沦陷
- 云计算|Google与NVIDIA合作开发新的云计算产品
- 驱动之家|NVIDIA GTX 1650共有四种版本:最关键解码器区别公布、千万别买错
- cnBeta|英特尔Xe集成显卡被认为是NVIDIA GeForce MX350强大对手
- 科技小数据|NVIDIA为全球最受欢迎的数据分析平台 Spark提速
- 超能网|NVIDIA发布首个为Windows 10 Version 2004适配的驱动,支持新硬件加速特性
- 太平洋电脑网|戴尔发布两款游戏显示器 兼容 Nvidia G