从狂热到理性:大模型训练三堵墙,一场少数人的游戏( 三 )


一些厂商也在想其他办法,比如在香港建立算力集群,同时H800和A800复用了一部分产品线,未来H800的产能上来之后或许会压制A800,不排除英伟达会继续增加适用于中国市场的产线 。
除了产量,高企的价格也源于英伟达芯片的工程化能力,这是其成为大模型训练核心的决定性原因 。
业界内外对英伟达有两种极端认知:一种认为,英伟达难以战胜;另一种是诸多厂商在PPT上“吊打”英伟达 。然而,即便在理念和先进性上领先,但这一切只停留在芯片设计环节,没有真正工业落地,也就无从对比 。
现实情况是,在大模型算力领域,英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力 。
以英伟达最新发布的GH200GraceHopper超级芯片,以及拥有256个GH200超级芯片的DGXGH200超级计算机为例,产品性能上至少领先其他厂商一个身位 。
涉及到算力集群,RDMA网络成为大模型时代的底层通信技术,业内主要使用的是Infiniband、RoCE,NVlink仅用于GPU之间通信,InfiniBand网络则为通用高性能网络,既可用于GPU之间通信,也可用于CPU之间通信 。
Infiniband网络以往在超算领域应用较为广泛,随后扩展至人工智能计算,2019年,英伟达以69亿美元收购迈络思,补全了自己了网络短板,目前IB较为成熟,很多厂商都在尝试自研RoCE路线,在部分场景下较IB网络还有一定差距 。
例如文心一言,早在2021年6月,百度智能云开始规划全新的高性能GPU集群的建设,联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计,集群中节点间的每张GPU卡都通过IB网络连接,并在2022年4月将集群建设完成,提供单集群EFLOPS级别的算力 。
2023年3月,文心一言在这个高性能集群上诞生,并不断迭代出新的能力 。目前,这个集群的规模还在不断扩大 。NVIDIA中国区解决方案与工程总经理赖俊杰也提到,高速IB网络互联的GPU集群是大模型时代的关键基础设施 。
据了解,百度仅半年时间就采购了数万片英伟达A800,其他互联网厂商的采购量也在上万片,刨除一开始发生了挤兑现象导致供不应求外,目前英伟达产品的供货周期在三个月以内 。
CUDA(ComputeUnifiedDeviceArchitecture)软件生态,也是备受开发人员好评的产品,它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算,提供了强大的计算能力和高效的数据传输方式,使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用 。
目前,英伟达是大模型热潮中最受益的厂商,没有之一,即便是微软为OpenAI搭建的超级计算机,也依赖于英伟达的产品,绝大多数训练算力都来自于英伟达GPU,面对全球如雪花般飞来的订单,英伟达赚的盆满钵满 。
其最新的2024财年第一季度财报显示,英伟达数据中心业务营收为42.8亿美元,创下历史纪录,与上年同期相比增长14%,与上一财季相比增长18%,股价也创下历史新高 。财报具有滞后性,大模型带来的业绩增收还没有完全体现在财报上 。
国产算力的机会

从狂热到理性:大模型训练三堵墙,一场少数人的游戏

文章插图
在自主创新的大背景下,大模型算力也在加速拥抱国产化,大家的态度是远期普遍看好,短期仍有挑战 。大模型时代到来之后,很多国产芯片虽然有所准备,但是在最高端的芯片上存在一定的差距 。
燧原COO张亚林表示,当前所有人在做大模型训练的时候,时间至关重要,现在大家需要成熟的产品,不会倾向于选用国产化芯片,避免遇到一些稳定性或者成熟度的问题 。
但推理层面是国产芯片的机会,张亚林表示,推理模型本身支持的方向比较单一,只要在推理模型上做到极致的调优,把性价比拿出来,很多用户反而愿意用国产化芯片 。“我认为现在国产芯片应该倒过来,先做推理和微调,然后慢慢通过研究所、高校、国家级实验室的研究,牵引到集群化的能力,从推理到训练的曲线会更加合理 。”他说 。
谢广军提到,AI芯片的发展比摩尔定律更加激进,也会有更大的下降空间 。算力短缺一方面算力跟不上需求,另一方面,还是由于整个供应形势所带来的问题 。
“大模型的需求也会加速国产芯片的迭代 。以昆仑芯来讲,今年年底昆仑第三代,更加适合大模型,不管是训练还是推理,包括通信、显存都会有非常大的提升 。我相信其他的国产算力也是这样的,国产算力更具备竞争力,会使得整个算力成本进一步下降,而且是加速下降 。”谢广军说 。


推荐阅读