DT Value|NVIDIA安培GPU:从TOP500走向云智应用( 七 )



DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

与GPU直接相关的组件数量都只有DGX-2(上)的一半 , 所以DGX A100(下)的构成可以从偏正面的角度来呈现
尽管采用7nm制程 , 奈何A100 GPU的晶体管数量增长更为迅猛 , TDP已经来到400W(瓦) , 比Tesla V100高出三分之一 。 个人认为 , 如果简单套用DGX-2的架构 , 整体的供电需求有可能突破12kW , 机箱高度又不增加的话 , 传统的风冷方案恐怕难以为继 。 相比之下 , 现在的方案把每U的功率密度维持在与DGX-1/2相当的水平 , 可以说是相当的克制了 。
总体而言 , 虽然在Scale-up方向所达到的绝对能力上 , DGX A100超越了DGX-2 , 但是在构建更大系统的路线选择上 , DGX A100更倾向于Scale-out 。 以DGX SuperPOD为例 , 4名操作人员仅需不到1个小时 , 就能组装起一套由20台系统组成的DGX A100集群 , 2 PFlops的性能足以被列入TOP500榜单 。

DT Value|NVIDIA安培GPU:从TOP500走向云智应用
本文插图

通过添加NVIDIA Mellanox InfiniBand交换机层 , 工程师将14套分别配置有20台DGX A100系统的集群相连接 , 创造出了具有:280台DGX A100系统2240个NVIDIA A100 GPU494台NVIDIA Mellanox Quantum 200Gb/s InfiniBand交换机56 TB/s网络架构7PB高性能全闪存
的Selene系统 , 可以提供超过1 EFlops的AI性能 , 而搭建时间还不到一个月 。
正如NVIDIA所言 , “此类系统能够在标准数据中心的功率和散热能力承担范围内轻松运行” 。 对专业的超算系统而言 , 10kW的供电能力也好 , 某种形式的液冷也罢 , 都不算个事儿 。 但是 , 当定位放宽到相对大众化的ABC市场 , 不能不考虑用户环境的承受力 , 期待DGX/HGX A100在AI和云计算领域的表现 。
【DT Value|NVIDIA安培GPU:从TOP500走向云智应用】变革与创新 , 从未停息 。 DT时代聚焦最新基础架构设施和技术的的进展 , 关注企业数字化转型优秀案例 , 专注企业级方案和技术的传播和创新企业的成长 , 触及企业的变革与转型 , 目前覆盖的渠道有:****、百度百家、知乎、****(DTValue)、天天快报、凤凰新闻、****、大鱼、****等多家平台 。


推荐阅读