英伟达仅用一月时间组装好全球第七快超算

据外媒报道 , 英伟达详细介绍了Selene超级计算机的组装过程 , 该计算机此前在6月份成为了世界上速度第七快的超级计算机 。 在流感大流行期间 , 仅用了三个半星期的时间 , 一个跟社会保持距离的六人小组加上一个名为Trip的轻便机器人就把整个东西组装好了 。
英伟达仅用一月时间组装好全球第七快超算
文章图片
Selene是一台相当独特的超级计算机 。 它采用的是英伟达商用GPU加速DGXSuperPOD架构 , 而不是在500强中占主导地位的大量定制CPU设计 。 另外 , 这台超算在绿色500最节能超级计算机排行榜上排名第二 。
在数量上 , Selene使用了560块AMDEpyc7742CPU和2240个英伟达A100GPU 。 它的峰值理论性能接近35000万亿次浮点运算 。
【英伟达仅用一月时间组装好全球第七快超算】英伟达之前的超算建造工作都花费了几个月 , 并且还很难维护和升级 。 然而当涉及到Selene的设计时 , 他们试图使其尽可能简单和模块化 。 Selene的280个节点都是一个标准化的DGXpod , 其包含8个英伟达A100GPU和2个AMDEpycCPU 。
Selene的同质性使得其能迅速被组装起来 。 虽然连接一台超级计算机总是一件棘手的工作--尤其是六英尺的距离 , 但英伟达通过使用Mellanox的InfiniBand交换机来减少所需的电缆数量 , 同时还提升了带宽 。
Selene是基于SuperPOD冷却 。 所有的SuperPOD都住在一个巨大的空调仓库里 。 它们从地面上被升起 , 下面的风扇将冷空气推入DGX吊舱 。 英伟达的小型组装团队只需要安装地板和SuperPOD来控制空气流动即可 。
英伟达很有创意地为Selene设计了监控设备 。 他们购买了一个叫Trip的小机器人 , 其可以被远程控制 , 还可以通过转动它来观察Selene内部的情况 。 他们还为Slack开发了一个机器人 , 当硬件出现故障或电缆松脱时它会向他们发出通知 。
目前 , Selene正在进行约1000项任务 , 主要内容是关于AI开发和神经网络训练 。 它的空闲周期则专门用于新冠病毒研究 。


    推荐阅读