非ChatGPT的14个大型语言模型

译者 | 李睿
如今,很多企业高管都将人工智能视为未来发展方向,许多技术领导者也将ChatGPT视为人工智能的代名词 。但是AI target=_blank class=infotextkey>OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型——对于一些软件项目或领域来说,ChatGPT甚至可能不是一个最好的选择 。几乎每天都有新的竞争者出现 。似乎每家科技公司都想构建下一代人工智能工具,这些工具带来的好处和坏处取决于人们如何应用 。

非ChatGPT的14个大型语言模型

文章插图
一些大型语言模型比其他一些模型好吗?也许 。但它们都有缺陷、怪癖、故障和弱点,使用的时间越长,这些缺陷就越明显 。生成式人工智能乍一看似乎很神奇,但随着时间的推移,其怪异和不可预测的一面开始显现 。
衡量大型语言模型由于大型语言模型的范围和使用方式,科学地衡量生成式人工智能回答问题的质量是很困难的 。数据科学家可以输入数千甚至数百万个测试问题并评估答案,但如果测试集只关注一种类型的问题,那么其输出结果将会受到限制 。咨询像Hugging Face这样的Open LLM排行榜类似的资源很有趣,但不一定准确 。
如果说找到一种精确的方法来对大型语言模型进行衡量很困难,那么在它们之间切换变得越来越容易了 。像OpenLLM或FastChat这样的项目使各种大型语言模型的连接变得更简单,尽管它们有不同的API和接口 。开发人员可以将这些整合在一起,有时甚至可以并行运行这些模型 。
构建大型语言模型的一个主要问题是成本 。虽然人们很感兴趣并且投资得到爆炸式增长,但构建一个大型语言模型可能需要数月甚至数年的时间 。开发团队首先收集训练数据,然后采用成本高昂的硬件消耗大量电力推送数据 。最后他们制作了大型语言模型,而如何盈利以及维持这项工作的最佳方式是一个不断演变的问题 。
一些企业正在尝试开源他们开发的大型语言模型,而另一些企业则依赖具有自己计费模型的服务 。开源大型语言模型可能是一份真正的礼物,但前提是能够处理部署模型并保持其运行的工作 。
以下是非ChatGPT的14种大型语言模型 。它们可能是用户运营项目所需要的大型语言模型,也可能不是 。唯一知道的方法就是把提示发给它们,并仔细评估结果 。
1.Llama
Facebook(如今更名为Meta)创建了这个基础大型语言模型,然后将其发布,作为其声明的“开放科学承诺”的一部分 。任何人都可以下载Llama,并将其作为为特定应用创建更精细调整模型的基础(Alpaca和Vicuna都是在Llama的基础上构建的) 。该模型还有四种不同的规模 。只有70亿个参数的较小版本在不太可能的地方使用 。一名开发人员甚至声称Llama可以运行在只有4GB内存的Raspberry Pi上 。
2.Alpaca
斯坦福大学的几位研究人员采用了Meta公司的Llama 7B,采用一组模仿ChatGPT等指令遵循模型的提示对其进行训练 。这一微调产生了Alpaca 7B,这个大型语言模型将Llama LLM中编码的知识开放为人们可以通过提问和给出指令来获取的知识 。据称,其轻量级大型语言模型可以在价值不到600美元的硬件上运行 。
Alpaca 7B的创建者正在分发训练集和构建它的代码,任何人都可以复制模型或从不同的集合创建新的内容 。
3.Vicuna
Llama的另一个后代是来自LMSYS.org的Vicuna 。Vicuna团队从ShareGPT中收集了7万个不同对话的训练集,并特别注意创建多轮互动和指令跟随功能 。这个大型语言模型有Vicuna-13b或Vicuna-7b两种版本,是最具价格竞争力的基本交互式聊天开放解决方案之一 。
4.NodePad
并不是所有人都对大型语言模型生成“语言准确”文本的方式所吸引 。NodePad的创建者认为,文本的质量往往会分散用户对潜在事实的双重检查 。具有美观的用户界面的大型语言模型往往无意中美化结果,使用户更难以预测这些问题 。NodePad旨在培养探索和创意,而不是生成用户几乎不会浏览的精致写作样本 。这个大型语言模型的结果显示为节点和连接,就像人们在许多“思维导图工具”中看到的那样,而不像忆经完成的写作 。用户可以利用该模型的百科知识来获得很好的想法,而不会在演示中迷失方向 。
5.Orca
第一代大型语言模型在规模上取得了成功,随着时间的推移变得越来越大 。来自微软公司研究团队的Orca扭转了这一趋势 。该模型仅使用130亿个参数,使其能够在普通机器上运行 。Orca的开发人员通过增强训练算法来使用“解释痕迹”、“逐步的思考过程”和“指令”来实现这一壮举 。Orca并没有仅仅要求人工智能从原始材料中学习,而是提供了一套专门用于教学的训练集 。换句话说,就像人类一样,人工智能在没有深入研究的情况下学习得更快 。最初的结果很有希望,微软团队提供的基准测试表明,该模型的性能与更大的模型一样好 。


推荐阅读