ELMo
ELMo是AllenNLP在2018年推出的深度语境化单词表示(参见ELMo论文) , 它既模拟了单词使用的复杂特征(例如语法和语义) , 也模拟了这些用法在不同的语言语境中是如何变化的(例如建模多义性) 。其最初的模型有9360万个参数 , 并在十亿个单词基准上进行训练 。
BERT
BERT是来自Google AI Language的2018年语言模型 , 基于该公司的Transformer(2017)神经网络架构(参见BERT论文) 。BERT的目的是通过在所有层中对左右场景进行联合条件反射 , 从未标记的文本中预训练深度双向表示 。原文中使用的两种模型规模分别是1亿个参数和3.4亿个参数 。BERT使用掩码语言建模(MLM) , 其中约15%的令牌被“破坏”用于训练 。它是在英文维基百科和多伦多图书语料库上训练的 。
T5
来自谷歌的2020文本到文本传输转换器(T5)模型(见T5论文)使用一个新的开源预训练数据集 , 称为Colossal Clean Crawled Corpus (C4) , 基于来自GPT、ULMFiT、ELMo和BERT及其后继者的最佳迁移学习技术 , 综合了一个新的模型 。C4是一个基于CommonCrawl数据集的800GB数据集 。T5将所有自然语言处理任务重新构建为统一的文本到文本格式 , 其中输入和输出始终是文本字符串 , 而BERT风格的模型只输出一个类标签或输入的一个范围 。基本的T5模型总共有大约2.2亿个参数 。
GPT家族
OpenAI公司是一家人工智能研究和部署公司 , 其使命是“确保通用人工智能(AGI)造福人类” 。当然 , OpenAI公司还没有实现通用人工智能(AGI) 。一些人工智能研究人员(例如Meta-FAIR的机器学习先驱Yann LeCun)认为OpenAI公司目前研究的通用人工智能(AGI)方法是一条死胡同 。
OpenAI公司开发了GPT语言模型家族 , 这些模型可以通过OpenAI API和微软的Azure OpenAI服务获得 。需要注意的是 , 整个GPT系列都是基于谷歌公司的2017 Transformer神经网络架构 , 这是合法的 , 因为谷歌公司开放了Transformer的源代码 。
GPT(生成预训练Transformer)是OpenAI公司在2018年开发的一个模型 , 使用了大约1.17亿个参数(参见GPT论文) 。GPT是一个单向转换器 , 它在多伦多图书语料库上进行了预训练 , 并使用因果语言建模(CLM)目标进行了训练 , 这意味着它被训练为预测序列中的下一个标记 。
GPT-2是GPT的2019年直接扩展版 , 具有15亿个参数 , 在800万个网页或约40GB的文本数据集上进行了训练 。OpenAI公司最初限制使用GPT-2 , 因为它“太好了” , 会产生“假新闻” 。尽管随着GPT-3的发布 , 潜在的社会问题变得更加严重 , 但该公司最终还是让步了 。
GPT-3是一个2020年开发的自回归语言模型 , 具有1750亿个参数 , 在Common Crawl、WebText2、Books1、Books2和英语维基百科的过滤版本的组合上进行训练(见GPT-3论文) 。GPT-3中使用的神经网络与GPT-2中使用的类似 , 有几个额外的块 。
GPT-3最大的缺点是它容易产生“幻觉” , 换句话说 , 它在没有辨别依据的情况下编造事实 。GPT-3.5和GPT-4也有同样的问题 , 尽管程度较轻 。
CODEX是GPT-3在2021年推出的新一代模型 , 针对5400万个开源GitHub存储库的代码生成进行了微调 。这是GitHub Copilot中使用的模型 , 将在下一节中讨论 。
GPT-3.5是GPT-3和CODEX在2022年的一组更新版本 。GPT-3.5-turbo模型针对聊天进行了优化 , 但也适用于传统的完成任务 。
GPT-4是一个2023年的大型多模态模型(接受图像和文本输入 , 发出文本输出) , OpenAI公司声称它在各种专业和学术基准上表现出人类水平的性能 。GPT-4在许多模拟考试中表现优于GPT-3.5 , 包括统一律师考试、LSAT、GRE和几个AP科目考试 。
值得关注的是 , OpenAI公司没有解释GPT-4是如何训练的 。该公司表示 , 这是出于竞争原因 , 考虑到微软公司(一直在为OpenAI公司提供资金)和谷歌公司之间的竞争 , 这在一定程度上是有道理的 。然而 , 不知道训练语料库中的偏差意味着人们不知道模型中的偏差 。
Emily Bender对GPT-4的看法(于2023年3月16日发表在Mastodon上)是“GPT-4应该被认为是有毒的垃圾 , 除非OpenAI公司对其训练数据、模型架构等进行开放 。”
ChatGPT和BingGPT是最初基于GPT-3.5-turbo的聊天机器人 , 并于2023年3月升级为使用GPT-4 。目前使用基于GPT-4的ChatGPT版本 , 需要订阅ChatGPTPlus 。基于GPT-3.5的标准ChatGPT是根据2021年9月截止的数据进行训练的 。用户可以在微软Edge浏览器中访问BingGPT , 它也接受了2021年中断的数据的训练 , 但它说(当你问它时) “我正在不断学习 , 并用网络上的新信息更新我的知识 。”
推荐阅读
- 数智商业技术2.0时代的新「三驾马车」,阿里妈妈郑波谈如何把握生成式大模型
- 解锁AI创新力:自然语言处理技术与应用
- AI大模型能否继续扩展?
- 顶是什么意思网络语言 顶是什么意思
- 通俗解构语言大模型的工作原理
- 大模型重新激活电商领域ChatBot,新的流量入口到来?
- 美杜莎女王新模型公布,玉足变成黑丝大长腿,还有一个改动细节
- 非程序员小白版本地部署ChatGLM2-6B +LangChain 个人知识库模型
- 首个线性注意力Transformer大模型:1750亿参数,速度、精度更优
- 非语言沟通的技巧有哪些 非语言沟通的技巧有哪些