LLM 大模型最新趋势总结( 二 )


过去的几个月时间 , 已经很多家公司发布自己的大模型 , 各有特色 , 灿若繁星:

LLM 大模型最新趋势总结

文章插图
开源系列羊驼大家族最为耀眼 , 英文名已经“售罄” 。
LLM 大模型最新趋势总结

文章插图
更多介绍见前文:ChatGPT复现: 三步走+大模型进化图谱
其中不少LLM宣称达到或趋近ChatGPT/GPT-4的80-90% , 大家也都体验过 , 可圈可点
LLM 大模型最新趋势总结

文章插图
上次的有偏评测(约120道题)中 , 初步探了探底:
LLM 大模型最新趋势总结

文章插图
详见文章:千模大赛哪家强?大语言模型中文评测实践 。
报告里关于LLM训练的事实和观点:
预训练:GPT系列的成功主要源自于小创新 , 训练数据远超过其他大模型 。
微调:GPT并非采用预训练一体的模型结构 。
奖励模型:OpenAI 数据飞轮效应有限 , 外部数据标注分散给多家公司 。
至于稳坐神坛的GPT-4 , 这次报告明确指出:GPT-4采用MoE架构 , 16个experts , 800b参数 , “吃掉”30T数据 , 训练消耗5万张A100 , 推理用了3-4万A100 。而这只是开始 , 下一代模型重点是多模态 , 消耗的资源将更大更多 , 10万张H100!
LLM 大模型最新趋势总结

文章插图
至于业界普遍看好的开源模型 , 这次报告波了盆冷水:开源社区模型不具备真正智能 , 更好的小模型来自大模型的 Scale Down
同时 , 报告还指出:指令遵循的开源小模型被过度炒作 , 已经到达瓶颈 , 突破方向是更强的Base Model 和更进一步的反馈数据 。
LLaMA+指令微调≠GPT 3.5
LLM 大模型最新趋势总结

文章插图
怎么办?开源社区开始“分工协作” , 转向 pre-train环节 。
LLM 大模型最新趋势总结

文章插图
至于 , 盛传的“开源大模型才是未来的赢家” , 大家态度截然相反 , 客户坚信 , 而研究者悲观 , 算力、数据、时间差以及全栈产品链 , 不是一般开源组织玩得起的 。
LLM 大模型最新趋势总结

文章插图
千模大赛还在继续 , 热潮还会持续多久?过于关注训练会不会浪费资源?
LLM 大模型最新趋势总结

文章插图
跟风而上的浪潮终究会退下 , 到时候 , 少数人成为弄潮儿 , 而多数人被淹死 , 成为他人谈资 。
大模型训练尘埃落定后 , 新的浪潮是什么?大模型应用 , 其中 Serving 是个难题 。
报告里分析了什么时候80%算力从 Training 转向 Serving?要看用户群体 , B/C/G 时间点各不相同 。
B/G:私有化部署和小语种模型
C:终端推理解决隐私问题
产品上 , 目前主要简单辅助 , 多模态、复杂推理问题解决后 , 才会带来质的飞跃 。
【LLM 大模型最新趋势总结】
LLM 大模型最新趋势总结

文章插图
成熟期时间轴上的刻度依次是 长程窗口、多模态、小模型天花板、模型压缩等 , B/C/G侧应用随之逐步展开 , Serving时刻到来 。
LLM 大模型最新趋势总结

文章插图

LLM 大模型最新趋势总结

文章插图
预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本 , 中间有无数次小版本迭代;
LLM 大模型最新趋势总结

文章插图
中期来看 , RLHF 不应该是 Alignment 的唯一手段 ,  Direct Preference Optimization 和 Stable Alignment 是新路径
LLM 大模型最新趋势总结

文章插图
长期来看 , 小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding


推荐阅读