GPT-GPT-3王者来袭!1750亿参数少样本无需微调,网友:「调参侠」都没的当了
图片
新智元报道
来源:arXiv等
编辑:白峰、鹏飞
【新智元导读】近日OpenAI发布GPT-3 , 万亿数据训练 , 1750亿参数 , 无监督学习效果接近SOTA , 要做本年度最强语言模型!
OpenAI最强预训练语言模型GPT-3周四发表在预印本 arXiv 上 , 1750亿参数!
图片
GPT家族又添新
GPT系列的预训练语言模型一直是大力出奇迹的典型代表 , 但是一代和二代在偏重理解的自然语言处理任务中表现欠佳 , 逊色于BERT家族 。
GPT(Generative Pre-Training)是一个12层单向Transformer语言模型 。 语言模型训练好后 , 可以用于其他的NLP任务 。 使用GPT首先要学习神经网络的初始参数 , 然后 , 根据具体任务再进行微调 。
GPT-2在GPT基础上对模型做了调整 , 将Layer Normalization挪到了每个sub-block的输入 , 另外有一个LN加到了自注意力block之后 , GPT-2把输入输出全部转化为了文本 , 训练出15亿参数的模型 , 在自然语言生成领域一时风头无两 。
图片
GPT2 demo
少样本学习无需微调 , 以后都不能自黑「调参侠」了
GPT-3基于 CommonCrawl (从2016年到2019年收集了近1万亿个单词)、网络文本、书籍、维基百科等相关的数据集进行训练 。
GPT-3的参数量高达1750亿 , 相比之下 , GPT-2的最大版本也只有15亿个参数 , 而微软早前推出的全球最大的基于Transformer的语言模型有170亿个参数 。
GPT-3模型在一系列基准测试和特定领域的自然语言处理任务(从语言翻译到生成新闻)中达到最新的SOTA结果 。
GPT-3只是参数量巨大吗?
此次发布的GPT-3还是沿用了之前的单向transformer , 我们看题目 , 这次的模型是少样本学习语言模型 , 不管是Zero-shot、One-shot还是Few-shot都无需再进行微调 , 但推理速度还有待验证 。
图片
实验证明 , 1750亿参数的GPT-3模型 , 在少样本学习中取得了不错的效果 。 「GPT-3在特定领域少样本学习中取得了极大的性能提升 , 有些甚至超过了当前的SOTA效果」 。
图片
对于所有任务 , GPT-3没有进行任何微调 , 仅通过文本与模型进行交互 。
图片
知乎用户李如总结了GPT-3相对BERT的优势 , BERT在特定领域的任务微调过分依赖标注数据、容易过拟合 , 而GPT-3只需要少量标注数据 , 且无需微调 。
前面我们说了GPT和GPT-2在自然语言理解方面还是逊色于BERT , 那这次有没有新进展呢?
在专门用于测试推理和其他高级 NLP 模型任务的 SuperGLUE 基准测试中 , GPT-3在 COPA 和 ReCoRD 阅读理解数据集中获得了近乎最好的结果 , 但是与上下文词汇分析(WiC)和 RACE (一组中学和高中考试问题)相比还是有所欠缺 。
图片
接下来作者们对下游的各种NLP任务进行了实验 , 想要了解更多细节的朋友可以去arXiv上查看原始论文 。
http://i5.hexun.com/2020-05-30/201456400.pdf
OpenAI这次不光拼参数量 , 还要拼作者数量?
这次的GPT-3论文作者足足有31位 , 现在语言模型不仅要拼参数量 , 还要拼作者数量吗?
图片
谷歌53页的T5论文已经让人惊掉下巴 , GPT-3的竟然有72页!知乎网友感叹 , 现在PTM的工作是要开始pk论文页数了吗?
推荐阅读
- 搜狐新闻|都说买手机就买华为,昔日王者旗舰迎来大幅降价,机会来了!
- APP乐橙APP5.2新版本来袭, 消息视频一触即达!
- 金融投资报社|网易云音乐王者归来,腾讯音乐危机重重,音乐平台“二战”在即?
- 羽度非凡|安卓旗舰性能榜单:骁龙865依然最强王者!
- 科技小语|跌至1299元,4500mAh+128GB+后置四摄,这才是千元机的王者
- 一起纪录|国产品牌风暴来袭!两大品牌决战,结局出乎意料
- 红网生活消费|梦洁家居新物种来袭 安全睡眠引领者诞生
- 科技吉普赛|当贝投影618来袭,智慧AI交互、内“芯”强大、快无止境
- 直播6·18来袭!董明珠直播带货神了,1分59秒销售额破亿!华为、美的……老总都来了
- 勺子黑科技|华为智能眼镜新品来袭,科技与时尚的一次完美邂逅