十个2023年最具影响力的开源大语言模型( 三 )


十个2023年最具影响力的开源大语言模型

文章插图
Guanaco的一个显著特点是它对扩展对话的适应性 。它可以根据用户的要求继续回答问题或讨论话题,非常适合聊天机器人应用程序 。该模型还支持视觉问答(VQA),使其能够解释和响应文本和视觉输入 。
 Guanaco最初是基于Alpaca模型的52000个数据集的基础上进行扩展,之后加入了超过534530个额外条目,涵盖了各种语言、语言任务和语法任务 。这种广泛的训练有助于其有效执行多语言和多模式任务 。
虽然,Guanaco模型未获得商业应用许可 。其主要用途是学术研究和非商业应用 。但它在多功能性和强大的性能等方面的自然语言处理任务能力具有较高价值 。
总之,Guanaco将高效的微调、多语言功能和适应性会话技能相结合,使其在语言模型领域取得了重大进步,在聊天机器人、内容生成和终端硬件应用、私有模型等方面具有潜在应用价值 。
6.RedPajamaRedPajama is a collaborative project involving Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, and Hazy Research, with the mission to create a set of leading, fully open-source language models. The project’s primary objective is to bridge the quality gap between open and closed models, as many powerful foundation models are currently locked behind commercial APIs, limiting research, customization, and usage with sensitive data.         
RedPajama是一个由Together、Ontocord.ai、ETH DS 3Lab、斯坦福大学CRFM和Hazy Research等多机构合作的项目,其使命是创建一套领先的、完全开源的语言模型 。该项目的主要目标是弥合开放模型和封闭模型之间的质量差距,因为许多强大的基础模型目前被锁定在商业API的后面,限制了敏感数据的研究、定制和使用 。
RedPajama项目由三个关键组件组成:
  • RedPajama数据集:RedPajama数据集是一个拥有1.2万亿令牌完全开放数据集,它是按照LLaMA论文中描述的方法创建的 。这个庞大的数据集包括来自不同来源的七个数据切片,包括CommonCrawl、C4、GitHub、arXiv、Books、Wikipedia和StackExchange 。每个数据切片都经过精心的预处理和过滤,确保数据质量和令牌计数与Meta在LLaMA论文中报告的数字一致 。
  • RedPajama基础模型:由30亿个参数和70亿个参数构成了RedPajama模型的基础 。它们是基于Pythia架构开发的,在不同的任务中表现出色 。两个变体是RedPajama-INCITE-Chat-3B-v1和RedPajama-INCITE-Instruct-3B-v1,两者都具有30亿个参数 。RedPajama-INCITE-Chat-3B-v1模型针对会话AI任务进行了优化,擅长在会话环境中生成类人文本 。另一方面,RedPajama-INCITE-Instruct-3B-v1模型旨在有效地执行指令,使其非常适合理解和执行复杂指令 。
  • RedPajama微调模型:此组件侧重于微调基本模型,使其在特定任务中表现出色 。该项目提供了RedPajama-INCITE-Base模型的变体,每个模型都具有不同的特性和应用 。例如,RedPajama-INCITE-Chat模型使用Dolly 2.0和Open Assistant数据进行微调 。相比之下,RedPajama-INCITE-Instruct模型设计用于少量提示词,减少与HELM基准测试数据集的重叠 。
RedPajama模型和数据集是在Apache 2.0许可下发布的,允许在研究和商业应用中使用 。
7.Falcon【十个2023年最具影响力的开源大语言模型】Falcon模型系列由技术创新研究所开发,包括一系列的大型语言模型 。它们经过优化,可以在各种应用程序中实现包括文本生成、摘要和聊天机器人等功能 。
十个2023年最具影响力的开源大语言模型

文章插图
Falcon系列模型包括多种型号,例如:Falcon-40B、Falcon-7B、Falcon-180B , 每一个都根据特定的要求和场景量身定制 。Falcon-40B模型有400亿个参数 , 并在RefinedWeb数据集上训练 。该数据集包含15000亿个Token , 是一个具备高质量、过滤和消除重复数据的Web数据 。Falcon-7B模型是一个较小的变体,有70亿个参数,也在RefinedWeb数据集上训练,但进一步补充了精心整理的语料库,以增强其能力 。Falcon-180B拥有1800亿参数 , 是Falcon在3.5万亿token完成训练 , 目前直接登顶HuggingFace排行榜,性能直接碾压LLaMA 2 。基准测试中,Falcon 180B在推理、编码、熟练度和知识测试各种任务中,一举击败LLaMA 2 。
 
作为因果解码器专用模型,Falcon模型可以基于前面的Token预测序列中预测下一个令牌,使其特别适合文本生成任务,包括摘要和聊天机器人等功能 。他们的架构建立在GPT-3模型的基础上,并进行了一些调整,以实现更好的优化和增强性能 。例如 , 它们使用FlashAttention和多查询注意力机制 。    


推荐阅读