从狂热到理性:大模型训练三堵墙,一场少数人的游戏


从狂热到理性:大模型训练三堵墙,一场少数人的游戏

文章插图
▎训练基础模型,是一切大模型产业生态的起点 。
作者|张帅
编辑|盖虹达
本文首发于钛媒体App
“只要有GPU卡,把服务器买走都行” 。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目 。“当时客户比较慌,相当于对产品都没有什么要求,不关心网络和存储,就是感觉大家都在抢机器,先抢过来固定住时间,然后再去看怎么用,那会大家还没有想明白怎么用 。”
到了4月,有些客户已经尝试过或者见过大模型训练,逐渐开始想明白,大概知道想要什么样的配置 。要一堆GPU卡,实际上是一个认知误区,大模型训练的实现依靠的是一个算力集群,包含整套的服务 。
但不是所有企业都能驾驭大规模算力集群,这注定是一场少数人的游戏 。事实上,微软和AI target=_blank class=infotextkey>OpenAI的合作也已经证明,用云来训练大模型,似乎是更合理的选择 。
作为中间层,云厂商向下屏蔽底层软硬件的复杂性,向上对接企业的研发和算法工程师、个人开发者等,此外背靠集团的云厂商,还具备资金、人才、数据等优势,也就最先开始声势浩大的进军大模型 。
AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色,仿佛齿轮般咬合在一起,构成数字经济的产业发动机,如今,大模型让每个齿轮都极速传动起来 。
训练基础模型,是一切大模型产业生态的起点,也只有闯过算力关,才能拿到大模型竞赛的入场券 。
大模型训练的三堵墙
从狂热到理性:大模型训练三堵墙,一场少数人的游戏

文章插图
技术的发展有其延续性,正如微软Azure为OpenAI打造的“超级计算机”,经历了数年的演进才有成果,现阶段大模型训练比拼的,其实是过去几年厂商的战略预判与技术积累,能上牌桌的大多是老玩家 。
“大模型存在明显的炒作过热倾向,行业应该更加理性,而不是套着大模型概念做资本或者业务的炒作 。我自己的观点是,真的不要去考虑端到端地去做一个大模型,对于非要做的企业,我只能说有机会,但是挑战很大 。”一家互联网大厂大模型产品负责人对钛媒体表示 。
在学术界看来,OpenAI并没有做出革命性的创新,本质是围绕AGI产品进行的“工程创新”,但正是工程化造就了OpenAI和大模型的成功,工程化体现在大模型研究、工程、产品、组织各个环节,算力训练集群也是如此 。
“工程化做得好也很难,它证明了往上堆算力,堆数据是可以往前推进的 。”微软技术中心首席架构师韩凯对钛媒体表示 。
这一看似简单的逻辑背后,对企业而言却是极大的考验——看不见可能的出路,担心巨大的投入没有产出,这是最大的风险,也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随,而不是对一条没被验证过的路投资 。
算力集群的工程化,至少要突破三堵墙 。
首先是“算力”墙 。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练,而单卡只有312TFLOPS算力时,一张卡训练一个模型要耗时32年 。所以需要引入分布式训练的方法,使用多机多卡的方式来加速模型的训练,包括比较常见的数据并行和张量并行 。”天翼云资深专家陈希表示 。
其次是“存储”墙 。单显卡的显存已经无法加载千亿级参数 。千亿级参数完全加载到显存大概需要几个TB,如果再考虑梯度、优化器状态等训练过程产生的一些中间结果,占用的显存量就更大了,往往需要上百张卡才可以支持 。
所以厂商一般会引入流水线并行,将模型不同的层放到不同的节点的显卡内进行计算 。对于这一组节点只需要加载某一些层的参数,降低显存的压力 。
随之而来的是“通信”墙 。大模型并行切分到集群后,模型切片间会产生大量通信,包括节点内多卡通信,节点间通信 。几种并行方式都会涉及到大量的节点与节点间的通信,这时候就会对总线和总带宽都有很高的要求,要达到几百G的吞吐 。
另外除了这三堵墙以外,还有一些其他问题:如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显 。最近几年随着transformer结构的引入,平均每两年,模型参数数量增长15倍 。而相应的芯片制程从7nm提升到4nm,单卡算力增长不超过4倍,芯片工艺发展落后于大模型的需求 。


推荐阅读