Transformer彻底抛弃了传统的CNN和RNN等神经网络结构 。在这篇论文发布之前 , 主流AI模型都基于CNN卷积神经网络和RNN循环神经网络(recurrent neural network); 而之后 , 便是Transformer一统天下 。
Transformer架构的详细描述不在本文范围 , 读者只需要知道它具有两点无敌的优势:
自我注意力机制 , 让模型训练只需使用未经标注的原始数据 , 而无需再进行昂贵的的人工标注(标注输入和对应输出) 。
并行效率是之前的AI模型结构被一直诟病的地方 。抛弃了传统CNN/RNN架构后 , 基于Transformer架构的大模型训练可以实现高度并行化 , 这大大提高了模型训练的效率;
从此 , 大模型大数据大算力 , 大力出奇迹 , 成为了AI领域的标配 。
感慨一下 , Google首先发明了划时代的Transformer架构 , 但在5年后的今天 , 却被OpenAI打得喘不过气 。这是命运的偶然吗?
2018年6月
OpenAI发布了第一版的GPT(Generative Pre-training Transformers)系列模型 GPT-1 。
同时 , OpenAI发表了论文《Improving Language Understanding by Generative Pre-training》
从论文里可以了解到 , GPT-1具有1.17个参数 , 采用了12层的Transformer 解码器结构 , 使用5GB的无标注文本数据 , 在8个GPU上训练了一个月 , 然后再进行人工监督的微调 。
不过 , GPT-1并不是当年的明星 , 因为同年 , Google的BERT大模型也发布了(当时的Google就是强啊) 。
2018年10月
谷歌发布3亿参数的BERT(Bidirectional Encoder Representation from Transformers) , 意思即"来自Transformers的双向编码表示”模型 。
GPT和BERT的诞生意味着预训练大模型(Pre-trained Models)成为了自然语言处理领域的主流 。
和GPT相比 , BERT最大的区别就是使用文本的上下文来训练模型 , 而专注于"文本生成"的GPT-1 , 使用的是上文 。
基于"双向编码"的能力让BERT的性能在当时明显优异于第一代的GPT-1 。
幸好 , Open AI 并没有那么容易放弃 , 一直坚持只用上文训练的"单向编码"纯生成模式 。直到GPT-3 , 神功初成 。
2018年底
在共同创立公司三年后 , 钢铁侠马斯克辞去了Open AI董事会职务 , 原因是"为了消除潜在的未来冲突" 。
实际情况是 , 2017年6月 , 马斯克挖走了OpenAI的核心人员Andrej Karpathy , 担任Tesla的AI部门主管并直接向自己汇报 , 负责构建特斯拉的自动驾驶系统 。
所以 , 确实是存在人才竞争"潜在冲突"的 。
有趣的是 , 根据前不久的最新消息 , ChatGPT大火之后 , Andrej Karpathy同学又离开了Tesla回到了OpenAI 。这是所谓"鸟择良木而栖":)
而马斯克放出了声音 , 要打造OpenAI的竞争者 。不知首富同学是否遗憾当年不得不放走了OpenAI 。
2019年2月
OpenAI发布了GPT-2 。
GPT-2有48层Transformer结构 , 使用40GB文本数据训练 , 参数量突破到了15亿 。
在同时发布的论文 《Language Models are Unsupervised Multitask Learners》 中 , OpenAI描述了GPT2在经过大量无标注数据生成式训练后 , 展示出来的零样本(zero-shot)多任务能力 。
所谓零样本学习就是用很大的通用语料去训练模型 , 然后不再需要做特定任务的训练 , 大模型就可以直接完成一些具体任务 。
一个典型例子是翻译 。GPT-2具备了良好的语言翻译能力; 而有趣的是 , 专门做翻译的模型通常使用标注好的语料(即两个不同语言的匹配数据)来训练 。但GPT-2并没有使用这类数据 , 翻译效果还超过了很多专职翻译的小模型 。
GPT-2揭示了一个有趣的现象 , 仅作为生成式任务来训练打造的大模型 , 开始具备了多种通用任务能力 , 比如GPT-2所具备的阅读理解和翻译等等 。
2019年3-7月
3月份 , OpenAI正式宣布重组 , 成为一家"利润上限(caped-profit)"的公司 , 规定了投资收益的上限 。这是一个很特别的架构 。
而近期披露的OpenAI最新投资架构也再次揭示了这个公司股权结构的与众不同 。简单的说 , OpenAI把自己租借给了微软 , 赚到1500亿美金后 , 将重新变为非营利性组织 -- 至少说是这么说的 。
推荐阅读
- Java 中为什么要设计 throws 关键词,是故意的还是不小心
- 什么是网络数据库?
- 什么是企业ssl证书?安装企业ssl证书的好处
- 陈道明|内娱里最大的笑话,就是陈道明艺德不行!
- 高贵妃被谁害的 高贵妃怎么死的
- 为什么 HR 不喜欢职场空窗期?
- 为什么很多的离职原因都写的是“个人原因”?
- 植物人醒后画出的死后世界,是哪个画家 嫁给男主的植物人哥
- 十年树人十年树木百年树人出自谁的名言、十年树人的意思?
- 斜庞克纹理烫短发 男生耳朵上短的刘海发型叫什么?