OpenAI危险了( 二 )


MMLU(5-shot):衡量模型在 57 项任务上的多任务准确性的测试 。
虽然论模型能力 , 纵观整个市场 , 无论开源闭源都没有一款模型能敢跟GPT-4正面较量 。但猛虎顶不住狼多 , 打不过GPT-4的大模型们 , 选择了“换道超车” , 利用开源抢占应用生态 , 这似乎与Android对抗iOS时有些相似 。
“现在 , 所有开源大模型只有一个目的 , 就是营销 。”
一位国内开源大模型研发公司的创始人对虎嗅坦言 , 现下主推开源大模型和开源Android系统的理由 , 主要是靠免费抢市场 。“很多大公司发布了AI大模型 , 甚至只是做了一款基于已有模型的应用 , 就开始大张旗鼓地宣传 。实际上 , 对于基础大模型的用户来说 , 花再多钱打广告 , 也比不上模型开源来得实在 。”这也是 , AI公司证明自己实力的最好方法 。
首先 , 开源模型比封闭模型更容易评估 。因为开源模型的代码和数据集是公开的 , 研究人员可以直接检查模型的架构、训练数据和训练过程 , 从而对模型进行更深入的分析 , 以了解模型的优缺点 。
“有的AI大模型看似能力很强 , 但它不开源 , 你只能看到他输出的结果 。”
相比于开源模型 , 闭源模型只能通过模型的性能评估来了解模型的优缺点 。这导致闭源模型的性能可能被人为夸大 , 或者其缺点被隐藏 。而开源模型的透明性 , 则可以帮助开发者更深入地了解模型 , 并对其进行更公正的评价 。
对于后发者来说 , 闭源模型还有一个问题:容易被质疑技术的原创性 。多位大模型研发者曾对虎嗅表示 , “对于那些不开源的模型 , 说句不好听的 , 就算是套壳LLaMA , 或者干脆后台调用ChatGPT接口 , 又有谁知道呢?”
在第一波国产AI大模型刚刚问世时 , 这样的质疑声音就在网络上广为流传 。对于那些没有开源的AI大模型来说 , 则很难自证清白 , 为了证明自己不是调用ChatGPT的API , 有的公司甚至搬出推理服务器 , 现场拔网线演示 。
开源无疑是AI大模型自证能力最好的途径之一 。但开源的真正价值 , 并不是自证能力 , 而是要抢占生态 。
“LLaMA 2出来以后 , 肯定会迅速抢占OpenAI的生态 。”一位大模型开发者对虎嗅表示 , 虽然GPT-4能力最强几乎是业界公认的 , 但GPT-3以后的模型都没有开源 , 且GPT-4的API接口开放程度也很低 , 所以对GPT模型的开发是有很多限制的 。由此 , 很多开发者选择了LLaMA等开源模型 , 这些开源模型不仅可以进行指令微调 , 还可以对底层模型进行研究 。
“LLaMA在开发者中肯定比OpenAI更受欢迎 。”
7月19日LLaMA 2刚发布时 , Github上关键词包括“LLaMA”的项目有5600多个 , 包括“GPT-4”的有4100多个 。发布两周后 , LLaMA的增速更快 , 截至发稿 , “LLaMA”为6200多个 , “GPT-4”为4400多个 。
另一方面 , 开源模型可以下载到本地进行私有化部署 , 这给商业化公司的AI训练提供了便利 。这类公司的AI应用需要基于自己的业务数据进行训练 , 私有化部署的AI大模型 , 可以最大程度地保护数据安全 。同时 , 私有化部署的算力选择更多 , 不管是云服务 , 还是本地部署 , 甚至是多个IDC的分布式算力 , 大大拉低了模型的训练、推理成本 。
虽然ChatGPT仅用2个月就收获了1亿月活用户 , 但在开发者生态中 , 开源模型抢占用户心智的速度 , 似乎更快 。
目前 , 国内很多AI公司都选择发布了开源模型 。其中包括 , 智谱AI发布的开源模型ChatGLM-6B , 复旦大学发布的MOSS , 智源研究院发布的悟道天鹰Aquila , 以及百川智能的Baichuan-7B(13B)等 。其中智谱AI发布的开源大模型ChatGLM-6B全球下载量超过400万 , 在GitHub上获得3.2万颗星 , 比LLaMA还多3000颗星 。
“如果我们不做开源模型 , 那市场很快就全是LLaMA的了 。”一位已经推出开源模型的AI公司高管告诉虎嗅 , 开源是中国AI大模型发展的重要一步 。


推荐阅读