超级计算机,智能机器人|英伟达仅用一月时间组装好全球第七快超算

据外媒报道 , 英伟达详细介绍了Selene超级计算机的组装过程 , 该计算机此前在6月份成为了世界上速度第七快的超级计算机 。在流感大流行期间 , 仅用了三个半星期的时间 , 一个跟社会保持距离的六人小组加上一个名为Trip的轻便机器人就把整个东西组装好了 。
超级计算机,智能机器人|英伟达仅用一月时间组装好全球第七快超算
文章图片

文章图片

Selene是一台相当独特的超级计算机 。它采用的是英伟达商用GPU加速DGX SuperPOD架构 , 而不是在500强中占主导地位的大量定制CPU设计 。另外 , 这台超算在绿色500最节能超级计算机排行榜上排名第二 。
在数量上 , Selene使用了560块AMDEpyc 7742 CPU和2240个英伟达A100 GPU 。它的峰值理论性能接近35000万亿次浮点运算 。
【超级计算机,智能机器人|英伟达仅用一月时间组装好全球第七快超算】英伟达之前的超算建造工作都花费了几个月 , 并且还很难维护和升级 。然而当涉及到Selene的设计时 , 他们试图使其尽可能简单和模块化 。Selene的280个节点都是一个标准化的DGX pod , 其包含8个英伟达A100 GPU和2个AMD Epyc CPU 。
Selene的同质性使得其能迅速被组装起来 。虽然连接一台超级计算机总是一件棘手的工作--尤其是六英尺的距离 , 但英伟达通过使用Mellanox的InfiniBand交换机来减少所需的电缆数量 , 同时还提升了带宽 。
Selene是基于SuperPOD冷却 。所有的SuperPOD都住在一个巨大的空调仓库里 。它们从地面上被升起 , 下面的风扇将冷空气推入DGX吊舱 。英伟达的小型组装团队只需要安装地板和SuperPOD来控制空气流动即可 。
英伟达很有创意地为Selene设计了监控设备 。他们购买了一个叫Trip的小机器人 , 其可以被远程控制 , 还可以通过转动它来观察Selene内部的情况 。他们还为Slack开发了一个机器人 , 当硬件出现故障或电缆松脱时它会向他们发出通知 。
目前 , Selene正在进行约1000项任务 , 主要内容是关于AI开发和神经网络训练 。它的空闲周期则专门用于新冠病毒研究 。


    推荐阅读