过去的几个月时间 , 已经很多家公司发布自己的大模型 , 各有特色 , 灿若繁星:
文章插图
开源系列羊驼大家族最为耀眼 , 英文名已经“售罄” 。
文章插图
更多介绍见前文:ChatGPT复现: 三步走+大模型进化图谱
其中不少LLM宣称达到或趋近ChatGPT/GPT-4的80-90% , 大家也都体验过 , 可圈可点
文章插图
上次的有偏评测(约120道题)中 , 初步探了探底:
文章插图
详见文章:千模大赛哪家强?大语言模型中文评测实践 。
报告里关于LLM训练的事实和观点:
预训练:GPT系列的成功主要源自于小创新 , 训练数据远超过其他大模型 。
微调:GPT并非采用预训练一体的模型结构 。
奖励模型:OpenAI 数据飞轮效应有限 , 外部数据标注分散给多家公司 。
至于稳坐神坛的GPT-4 , 这次报告明确指出:GPT-4采用MoE架构 , 16个experts , 800b参数 , “吃掉”30T数据 , 训练消耗5万张A100 , 推理用了3-4万A100 。而这只是开始 , 下一代模型重点是多模态 , 消耗的资源将更大更多 , 10万张H100!
文章插图
至于业界普遍看好的开源模型 , 这次报告波了盆冷水:开源社区模型不具备真正智能 , 更好的小模型来自大模型的 Scale Down
同时 , 报告还指出:指令遵循的开源小模型被过度炒作 , 已经到达瓶颈 , 突破方向是更强的Base Model 和更进一步的反馈数据 。
LLaMA+指令微调≠GPT 3.5
文章插图
怎么办?开源社区开始“分工协作” , 转向 pre-train环节 。
文章插图
至于 , 盛传的“开源大模型才是未来的赢家” , 大家态度截然相反 , 客户坚信 , 而研究者悲观 , 算力、数据、时间差以及全栈产品链 , 不是一般开源组织玩得起的 。
文章插图
千模大赛还在继续 , 热潮还会持续多久?过于关注训练会不会浪费资源?
文章插图
跟风而上的浪潮终究会退下 , 到时候 , 少数人成为弄潮儿 , 而多数人被淹死 , 成为他人谈资 。
大模型训练尘埃落定后 , 新的浪潮是什么?大模型应用 , 其中 Serving 是个难题 。
报告里分析了什么时候80%算力从 Training 转向 Serving?要看用户群体 , B/C/G 时间点各不相同 。
B/G:私有化部署和小语种模型
C:终端推理解决隐私问题
产品上 , 目前主要简单辅助 , 多模态、复杂推理问题解决后 , 才会带来质的飞跃 。
【LLM 大模型最新趋势总结】
文章插图
成熟期时间轴上的刻度依次是 长程窗口、多模态、小模型天花板、模型压缩等 , B/C/G侧应用随之逐步展开 , Serving时刻到来 。
文章插图
文章插图
预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本 , 中间有无数次小版本迭代;
文章插图
中期来看 , RLHF 不应该是 Alignment 的唯一手段 , Direct Preference Optimization 和 Stable Alignment 是新路径
文章插图
长期来看 , 小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding
推荐阅读
- AI大模型混战“真相”:投资人看得多投得少,20家公司仅获60亿元融资
- LLM对程序员的冲击和影响
- 最高7000元!特斯拉最新引荐购车奖励规则公布,一图读懂!涉Model 3/Y、Model S/X
- AI重塑千行百业 华为云发布盘古大模型3.0和昇腾AI云服务
- 30家企业争鸣WAIC:大模型进入高维战
- 更具情感的大模型,会给人类带来什么?
- 大模型内卷:2天发了10余款,百模大战开打了
- 图 大模型“国家队”亮相,6家公司名单公布
- 大模型时代的下OCR,“CPU味道”更重了
- 文心大模型升级3.5版本,有多强?我们帮你试了试