|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX


机器之心报道
编辑:魔王、蛋酱
贵是贵了点儿 , 但用起来是真香 。
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

创建属于自己的深度学习工作站大概是很多机器学习从业者的梦想 , 本文作者 Rahul Agarwal 也不例外 。 然而创建工作站并非易事 , 你得有时间 , 还得有钱 。 主要是得有钱……
在拖延了很长时间后 , Rahul Agarwal 下定决心创建自己的工作站 。 原因无他 , 受够了使用云服务时 , 不管多小的项目都要设置服务器、进行一系列安装 , 或者运行时和网络连接受限 。
于是 , Rahul 决定行动起来 。 在创建工作站之前 , 他阅读了大量资料 , 观看了很多相关的 YouTube 视频 , 做足了准备工作 。
按照个人需求创建深度学习工作站需要大量研究 , Rahul 研究了单个组件、性能、评论甚至外观 , 并写下了整个过程、所有组件以及选择原因等详细信息 。
如果你也想创建深度学习工作站 , Rahul 的这篇文章或许可以作为参考 。
为什么要创建个人工作站?
映入我脑海的第一个答案是:为什么不呢?
我的工作和深度学习、机器学习应用密切相关 , 但是每一次开启新项目都要使用新的服务器、安装所有依赖 , 真是让人头秃 。
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

如果有了属于自己的工作站 , 你就可以坐在桌边使用它 , 根据自己的需求进行大量定制 。 简直太棒了!
不过相比于使用云服务 , 创建工作站这个主意真的让我「身无长物」了 。
工作站配置
我用了好几周时间 , 搞定了所有配置 。
从一开始 , 我就目标明确:拥有大量算力 , 组件能在未来几年中进行更新 。 目前 , 我的最高优先级是创建一个支持两块英伟达 RTX Titan 显卡(具备 NVLink 桥)的系统 。 这样我就可以拥有 48GB 的 GPU 内存了!
PS: 以下配置或许并非最优配置 , 可能会有价格更低廉的选择 , 但我确定该配置会让我未来不那么头大…… 因此 , 我选择了它 。 此外 , 我还向英伟达寻求了大量建议 。
1. 英特尔 i9 9920x 3.5 GHz 12 核处理器
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

我选择的是英特尔处理器 , 而不是 AMD 。 原因是英特尔拥有更兼容和相关的软件 , 如 MKL , 它对我使用的大部分 Python 库有益 。
另一个可能也更重要的原因是:英伟达的工作人员建议 , 如果我想上双路泰坦 RTX , 最好用 i9 。 这样以后就不头痛啦~
那么 , 为什么从英特尔的产品里选择了这一款呢?
我最开始考虑了 9820X(10 核)和 9980XE(18 核) , 但后者超出预算太多 。 后来 , 我发现了 12 核的 3.5 GHz 处理器 i9–9920X , 既满足预算 , 同时它对于中档解决方案也是更优的选择 。
【|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX】CPU 决定了其他组件的选择 。 例如 , 如果你选择 i9 9900X 系列 CPU , 你就必须选择 X299 主板;如果你使用 AMD Threadripper CPU , 那么你将需要一个 X399 主板 。
因此 , 注意选择合适的 CPU 和主板 。
2. MSI X299 SLI PLUS ATX LGA2066 主板
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

这是一次艰难的选择 , 选项实在太多了 。 我需要一个至少支持 96GB RAM 的主板(这也是为了满足双路泰坦 RTX 的需求) 。 这就意味着 , 如果我使用 16GB RAM 模块 , 我就必须拥有至少 6 个插槽 , 16x6=96 。 而这个主板有 8 个插槽 , 也就是说可以扩展到 128 GB RAM 。
我还想让这个系统以后可以拥有 2 TB NVMe 固态硬盘 , 也就是说我需要两个 M.2 端口 , 而这块主板恰好具备 。
我查看了很多选项 , 基于 ATX Form factor、4 个 PCI-E x16 插槽、主板价格这些要求 , 最终选择了这一款 。
3. 猫头鹰 NH-D15 chromax.BLACK 82.52 CFM CPU 散热器
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

现在液体冷却很流行 。 最初 , 我想选择 AIO 散热器(液体冷却) 。
但是 , 与英伟达的工作人员沟通并在论坛上查看两个选项的利弊之后 , 我意识到空气冷却更符合我的需求 。 于是选择了猫头鹰 NH-D15 , 这也是市场上最好的空气冷却器之一 。 于是 , 我就用最好的空气冷却器替换掉了平庸的液体冷却器 , 而且这款冷却器很安静 。
4. 追风者 Enthoo Pro Tempered Glass 机箱
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

接下来要考虑的是机箱了 , 它需要足够大能够装下所有组件 , 而且提供所需的冷却能力 。
我想要的工作站具备双路泰坦 RTX、9920x CPU 和 128 GB RAM , 会产生大量的热 。
而且还要考虑到猫头鹰空气冷却器和大量风扇 , 于是我只剩下两个选择:海盗船 Air 540 ATX 和追风者 Enthoo Pro Tempered Glass PH-ES614PTG_SWT 。
两个都是不错的选择 , 但是我最终选择了后者 , 因为它上市时间更晚 , 规格也更大(全塔机箱) , 为未来更多定制化需求提供了选择空间 。
5. 双路泰坦 RTX + 三插槽版 NVLink
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

双路泰坦 RTX 是目前为止最重要也最昂贵的部分了 。 单这一项就在所有成本中占了很大比重 , 但效果很棒不是吗?
我想使自己的工作站具备高性能 GPU , 英伟达的工作人员给我发过来两块泰坦让我测试 。
我爱上了它们:设计、放进工作站后的整体外观 , 以及结合三插槽版 NVLink 高效提供 48 GB GPU 内存的能力 。
如果预算不够 , 两块英伟达 GeForce RTX 2080 Ti 也是不错的选择 。 只有一个问题:使用 RTX 2080 Ti 后训练批大小需要比较小 , 而且在有些情况下你可能无法训练大模型 , 因为 RTX 2080 Ti 的内存只有 11GB 。 此外 , 你还无法使用 NVLink , 在泰坦中 NVLink 可以结合多个 GPU 的显存(VRAM) 。
6. 固态硬盘:三星 970 Evo Plus 1 TB NVME SSD
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

那么 , 存储呢?在 SSD 领域中 , NVMe SSD 和三星 Evo Plus 毫无疑问是最受欢迎的两款 。
我买了其中一款 , 不过我的主板上有两个 M.2 端口 , 将来我会使用 2TB 的 SSD 存储 。
你也可以多购买几个 2.5 英寸的 SSD , 来获得更多的存储空间 。
7. 内存:海盗船 Vengeance LPX 128GB (8x16GB) DDR4 3200 MHz
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

我第一台计算机的内存是 4MB , 没想到有一天我会用 128G 的内存来搭建计算机 。
根据英伟达团队的建议 , 我想配至少 96G 的内存 。 所以我没在这上面省钱 , 直接配了 128 GB 的内存 。
从图中可以看出来 , 这些内存条不是 RGB lit 。 之所以这样做 , 是因为猫头鹰空气冷却器不会为内存插槽提供很大的间隙 , 而 RGB lit 的高度略高 。 这一点要记住 。
另外 , 我从未尝试过 RGB 配置 , 因为我的心里只有泰坦 。
8. 海盗船 1200W 电源
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

1200W 算是相当大的电源了 , 但你需要知道 , 这些组件在全功率情况下的瓦数估计是 965W 左右 。
其实也有其他制造商提供的几种电源可以选择 , 而我选择这款是因为「海盗船」的名字 。 本来我想选择 HX 1200i 的 , 但买不到 , 而 AX1200i 又贵得多 。 它们也都是很好的选择 。
9. 更多风扇
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

静音散热器 。
追风者机箱配备了三个风扇 , 但有人建议我升级一下进风口 , 并将机箱的排风扇升级为 BeQuiet BL071 PWM 风扇 , 因为双泰坦会散发大量的热量 。 我注意到这一点 , 是因为机器开机时 , 房间温度比室外温度高 2 到 3 度 。
为了获得最佳的散热效果 , 我购买了五个这样的风扇 。 我在机箱的顶部放了两个风扇 , 和一个追风者机箱风扇放在一起 , 另外两个放在了机箱前面 , 机箱后面也放了一个 。
10. 周边设备
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

已经拥有了上述组件 , 我不想买廉价的周边设备 。 所以我买了一台 LG 27UK650 4k 显示器用来进行内容创作 , 一台 BenQ(明基)EX2780Q 1440p 144hz 游戏显示器用来打游戏 , 还买了一个海盗船 K68 Cherry MX 红轴机械键盘和海盗船 M65 Pro 鼠标 。
至此 , 搭建工作全部完成!
账单
买了这么多组件 , 尤其是还配备了双路泰坦 , 一共花了多少钱呢?
Rahul Agarwal 展示了购物清单:
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

清单地址:https://pcpartpicker.com/list/zLVjZf
账单总价是 9031.74 美元 , 可以说相当昂贵了 。 不过这些价格会出现一些浮动空间 , 你可以选择价格组合最低的时候入手 。
|云服务太麻烦,我花9000美元自建深度学习工作站,上双路泰坦RTX
本文插图

最终成果证明这些努力都是值得的 。
原文链接:https://towardsdatascience.com/creating-my-first-deep-learning-data-science-workstation-bd39c2f687e2


    推荐阅读