LLM 大模型最新趋势总结( 二 ) _LLM

过去的几个月时间，已经很多家公司发布自己的大模型，各有特色，灿若繁星：

文章插图
开源系列羊驼大家族最为耀眼，英文名已经“售罄” 。

文章插图
更多介绍见前文：ChatGPT复现: 三步走+大模型进化图谱
其中不少LLM宣称达到或趋近ChatGPT/GPT-4的80-90% ，大家也都体验过，可圈可点

文章插图
上次的有偏评测（约120道题）中，初步探了探底：

文章插图
详见文章：千模大赛哪家强？大语言模型中文评测实践。
报告里关于LLM训练的事实和观点：
预训练：GPT系列的成功主要源自于小创新，训练数据远超过其他大模型。
微调：GPT并非采用预训练一体的模型结构。
奖励模型：OpenAI 数据飞轮效应有限，外部数据标注分散给多家公司。
至于稳坐神坛的GPT-4 ，这次报告明确指出：GPT-4采用MoE架构， 16个experts ， 800b参数， “吃掉”30T数据，训练消耗5万张A100 ，推理用了3-4万A100 。而这只是开始，下一代模型重点是多模态，消耗的资源将更大更多， 10万张H100！

文章插图
至于业界普遍看好的开源模型，这次报告波了盆冷水：开源社区模型不具备真正智能，更好的小模型来自大模型的 Scale Down
同时，报告还指出：指令遵循的开源小模型被过度炒作，已经到达瓶颈，突破方向是更强的Base Model 和更进一步的反馈数据。
LLaMA+指令微调≠GPT 3.5

文章插图
怎么办？开源社区开始“分工协作” ，转向 pre-train环节。

文章插图
至于，盛传的“开源大模型才是未来的赢家” ，大家态度截然相反，客户坚信，而研究者悲观，算力、数据、时间差以及全栈产品链，不是一般开源组织玩得起的。

文章插图
千模大赛还在继续，热潮还会持续多久？过于关注训练会不会浪费资源？

文章插图
跟风而上的浪潮终究会退下，到时候，少数人成为弄潮儿，而多数人被淹死，成为他人谈资。
大模型训练尘埃落定后，新的浪潮是什么？大模型应用，其中 Serving 是个难题。
报告里分析了什么时候80%算力从 Training 转向 Serving？要看用户群体， B/C/G 时间点各不相同。
B/G：私有化部署和小语种模型
C：终端推理解决隐私问题
产品上，目前主要简单辅助，多模态、复杂推理问题解决后，才会带来质的飞跃。
【LLM 大模型最新趋势总结】