从狂热到理性：大模型训练三堵墙，一场少数人的游戏( 三 ) _大模型

一些厂商也在想其他办法，比如在香港建立算力集群，同时H800和A800复用了一部分产品线，未来H800的产能上来之后或许会压制A800，不排除英伟达会继续增加适用于中国市场的产线。
除了产量，高企的价格也源于英伟达芯片的工程化能力，这是其成为大模型训练核心的决定性原因。
业界内外对英伟达有两种极端认知：一种认为，英伟达难以战胜；另一种是诸多厂商在PPT上“吊打”英伟达。然而，即便在理念和先进性上领先，但这一切只停留在芯片设计环节，没有真正工业落地，也就无从对比。
现实情况是，在大模型算力领域，英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。
以英伟达最新发布的GH200GraceHopper超级芯片，以及拥有256个GH200超级芯片的DGXGH200超级计算机为例，产品性能上至少领先其他厂商一个身位。
涉及到算力集群，RDMA网络成为大模型时代的底层通信技术，业内主要使用的是Infiniband、RoCE，NVlink仅用于GPU之间通信，InfiniBand网络则为通用高性能网络，既可用于GPU之间通信，也可用于CPU之间通信。
Infiniband网络以往在超算领域应用较为广泛，随后扩展至人工智能计算，2019年，英伟达以69亿美元收购迈络思，补全了自己了网络短板，目前IB较为成熟，很多厂商都在尝试自研RoCE路线，在部分场景下较IB网络还有一定差距。
例如文心一言，早在2021年6月，百度智能云开始规划全新的高性能GPU集群的建设，联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计，集群中节点间的每张GPU卡都通过IB网络连接，并在2022年4月将集群建设完成，提供单集群EFLOPS级别的算力。
2023年3月，文心一言在这个高性能集群上诞生，并不断迭代出新的能力。目前，这个集群的规模还在不断扩大。NVIDIA中国区解决方案与工程总经理赖俊杰也提到，高速IB网络互联的GPU集群是大模型时代的关键基础设施。
据了解，百度仅半年时间就采购了数万片英伟达A800，其他互联网厂商的采购量也在上万片，刨除一开始发生了挤兑现象导致供不应求外，目前英伟达产品的供货周期在三个月以内。
CUDA（ComputeUnifiedDeviceArchitecture）软件生态，也是备受开发人员好评的产品，它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算，提供了强大的计算能力和高效的数据传输方式，使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用。
目前，英伟达是大模型热潮中最受益的厂商，没有之一，即便是微软为OpenAI搭建的超级计算机，也依赖于英伟达的产品，绝大多数训练算力都来自于英伟达GPU，面对全球如雪花般飞来的订单，英伟达赚的盆满钵满。
其最新的2024财年第一季度财报显示，英伟达数据中心业务营收为42.8亿美元，创下历史纪录，与上年同期相比增长14%，与上一财季相比增长18%，股价也创下历史新高。财报具有滞后性，大模型带来的业绩增收还没有完全体现在财报上。
国产算力的机会

文章插图
在自主创新的大背景下，大模型算力也在加速拥抱国产化，大家的态度是远期普遍看好，短期仍有挑战。大模型时代到来之后，很多国产芯片虽然有所准备，但是在最高端的芯片上存在一定的差距。
燧原COO张亚林表示，当前所有人在做大模型训练的时候，时间至关重要，现在大家需要成熟的产品，不会倾向于选用国产化芯片，避免遇到一些稳定性或者成熟度的问题。
但推理层面是国产芯片的机会，张亚林表示，推理模型本身支持的方向比较单一，只要在推理模型上做到极致的调优，把性价比拿出来，很多用户反而愿意用国产化芯片。“我认为现在国产芯片应该倒过来，先做推理和微调，然后慢慢通过研究所、高校、国家级实验室的研究，牵引到集群化的能力，从推理到训练的曲线会更加合理。”他说。
谢广军提到，AI芯片的发展比摩尔定律更加激进，也会有更大的下降空间。算力短缺一方面算力跟不上需求，另一方面，还是由于整个供应形势所带来的问题。
“大模型的需求也会加速国产芯片的迭代。以昆仑芯来讲，今年年底昆仑第三代，更加适合大模型，不管是训练还是推理，包括通信、显存都会有非常大的提升。我相信其他的国产算力也是这样的，国产算力更具备竞争力，会使得整个算力成本进一步下降，而且是加速下降。”谢广军说。

从狂热到理性：大模型训练三堵墙，一场少数人的游戏( 三 )

推荐阅读

『不再』四川诞生第2座全国百强城市，成都不再“孤单”，将是成渝副中心

大学|理工男怎么就被嫌弃了？我这是尊重我的职业！

自己的房子装修，咋知道要多少网线，电线，水管，啥的，价格大概都是多少啊?

7月中国航班正常率超7成取消1800余航班

怎么安装柜门铰链

中国西藏新闻网|扎西占堆：做自己美好生活的创造者

新华社新闻|研究发现：儿童鼻子里可携带冠状病毒数周

牛肉不能和什么菜一起吃食物相克表牛肉不能和什么菜一起吃

「潞州节度」俄罗斯VK-2500借机崛起，自作自受！乌克兰阻挠中企收购马达西奇

央视新闻客户端▲累计55061例，加拿大新增新冠肺炎确诊病例1825例

硅兔赛跑：Yelp裁员上千; Zoom被股东起诉; WeWork状告软银｜硅兔News，特斯拉降薪,

莱万多夫斯基|重磅！64年来首次！2020金球奖取消：梅西无缘连庄，球迷心疼莱万

三国志战略版最高多少章节，三国志战略版名声上限是多少

妈妈和女儿离别的句子和女儿分别的心情句子

大有文章|古代女子投河自尽时，为何在河边留一双绣花鞋？其实里面大有文章

工作|湖南省直中医医院援疆医务人员圆满完成任务

[人民网]俄罗斯拟于2025年前组建战斗机器人部队

福建漳州一男子为跟同事“开玩笑” 伪造核酸检测阳性报告被立案侦查

**同比|*ST江特：2020年前三季度净利润约2139万元，同比增加229.99%**

新智元|检测挑战赛揭榜，中科大俞能海张卫明团队获亚军！冠军疑违规50万美元奖金遭取消，全球最大规模Deepfake