大模型2024：先把价格打下去 _大模型

文章插图
作者|昭觉
来源|惊蛰研究所
AI新星OpenAI最近有点头疼，不仅公司和CEO被马斯克起诉，其拳头产品GPT-4在性能和价格上均面临竞争对手的冲击。
近期，成立不到一年的法国人工智能创企Mistral AI发布了最新大模型Mistral Large，并推出了首个聊天机器人产品Le Chat，直接对标ChatGPT 。据了解，Mistral Large在目前所有能通过API访问的大模型中评分第二，仅次于GPT-4 。
更值得关注的是，Mistral AI还与微软达成了更加深入的合作协议，微软将投资入股Mistral AI，并为其提供算力和云服务，而Mistral AI的大模型资源也将在微软的Azure云平台中售卖。要知道，上一个有此待遇的AI创业公司还是OpenAI 。
除此之外，更低廉的API接口价格也让Mistral Large成为了GPT-4的有力竞争者，并有望在当前的大模型军备竞赛中掀起一场价格战。
比GPT-4更具性价比？
作为一款诞生于欧洲的大模型，Mistral Large支持英语、法语、西班牙语、德语和意大利语，可深度理解语法和文化背景。另外，Mistral Large的上下文窗口为32K，可从约2.4万个英文单词的大型文档中精准提取信息；具备精确的指令跟随能力，便于开发者定制审核策略；支持原生函数调用和限定输出模式，助力应用开发规模化和技术栈现代化。
性能方面，虽然Mistral AI并未公布Mistral Large的参数量，但其关键性能已达到业界前三。
具体来看，Mistral Large在MMLU基准测试中的常识和推理得分为81.2%，仅次于GPT-4的86.4% 。Mistral Large达到了顶级的推理能力，可用于复杂的多语言推理任务，包括文本理解、转换和代码生成。其推理准确性优于Anthropic的Claude 2、谷歌的Gemini 1.0 Pro、OpenAI的GPT-3.5，推理速度甚至超过了GPT-4和Gemini Pro，显示了其在处理复杂任务时的高效能力。

文章插图
多语言能力测试中，Mistral Large在法语、德语、西班牙语和意大利语的Arc Challenge、HellaSwag、MMLU等基准测试中的表现均远超目前公认最强的开源大模型——Meta的LLaMA 2 70B 。
数学和编程能力方面，Mistral Large同样表现不俗：其在MBPP基准测试中的编程得分高于LLaMA 2 70B，在Math maj@4基准测试中的数学得分也领先于GPT-3.5、Gemini Pro 1.0等模型。

文章插图
作为Mistral AI商用系列中的旗舰模型，Mistral Large与GPT-4一样并未开源。用户可通过三种方式访问与使用Mistral模型：其中，在欧洲的Mistral Al基础设施上安全托管的La Plateforme是开发者访问Mistral Al所有模型的首选方式，开发者可通过点击创建自己的应用程序和服务；Mistral Al的开源模型目前可通过GCP、AWS、Azure、NVIDIA等云服务商获得，而Mistral Large目前仅通过Azure云平台提供服务，包括Azure AI Studio和Azure machine Learning 。
此外，开发者还可以通过虚拟云或on-prem自行部署使用Mistral模型，这种方式提供了更高级的自定义和控制，自有数据将保留在公司内部。
价格方面，目前上下文窗口为128k的GPT-4 Turbo的输入价格为0.01美元/1000 token ，输出价格为0.03美元/1000 token 。相比之下，Mistral Large的输入、输出价格均为前者的80% 。
体验方面，有AI创业者指出，Mistral Large的使用体验碾压曾经的第三名Claude 2 。截至2023年11月， OpenAI的开发者规模达200万，其中包含92%的世界500强企业。而Mistral Large直逼GPT-4的性能和更低的售价有望为需求量巨大的企业用户节省一大笔开支，从被OpenAI垄断的MaaS（模型即服务）市场撕开一个口子。
MoE架构立大功
Mistral Large把价格打下来的底气是更低的训练成本。OpenAI CEO Sam Altman曾表示，GPT-4的模型训练成本“远远超过了”5000万至1亿美元。而据Mistral AI创始人Arthur Mensch透露， Mistral Large的训练成本不到2200万美元，约为GPT-4的五分之一。
除了真金白银的训练成本，后来者居上的Mistral Large的时间成本也更具优势。OpenAI从成立到推出GPT-4，足足用了8年，而Mistral AI推出仅次于GPT-4的Mistral Large只用了9个月。