|玩不起1200万美元砸的GPT-3?百度EasyDL让你玩得起超大规模预训练


机器之心原创
编辑:思
在预训练模型领域 , BERT 开启的「暴力美学」逐渐演变成一场氪金游戏 , 动辄几十、上百万美元的训练费用令普通开发者望而却步 。 算力不够强、money 不够多就不能玩大规模预训练模型了吗?事实并非如此 。
自从预训练模型提出以来 , 预训练就不停地刷新我们的认知 。 最近大火的 GPT-3 参数量达到一千多亿 , 训练成本更是重新定义了什么叫「壕无人性」:据海外媒体VB称 , 预计GPT-3的存储需求高达350GB、训练成本超过1200万美元 。
对于我们普通用户来说 , 这样的成本也就只能想想了 。 向 OpenAI 申请使用 GPT-3 API 之类的 , 基本也不会有回应 。
当然 , 我们还有很多已经开源的预训练模型可以选择 , 但这些模型总有各种局限 , 可用的「超大规模」预训练就更少了 。
如果能有大厂总结了各种任务的大规模预训练模型 , 并且好用又方便 , 那么即使付出一些成本 , 我们也是非常乐意的 。
最新升级的 EasyDL 平台恰恰满足了这一需求 。 它引入了百度超大规模视觉、自然语言处理预训练模型 , 结合迁移学习工具 , 只需标注少量数据就能定制高精度顶尖模型 , 目前在图像分类、物体检测、单标签和多标签的文本分类、短文本匹配、序列标注等任务领域都可以使用 。
如果你的算力不够强、数据不够多、模型不够好、服务部署也不够灵活 , 可能还是选择大规模预训练模型、选择平台与工具比较省事儿 。
「超大」规模预训练 , 独此一份
大规模预训练模型的效果毋庸置疑 , 它们在各自的领域都有非常优秀的属性 。 基于预训练模型 , 我们只需要在小数据集上训练少量步数 , 就可以获得高精度模型效果 。
而且 , 众多文献实验都表明迁移学习非常有效 , 能够让预训练模型将通用知识应用到特定任务 。
但困难之处在于 , 我们手头上掌握的都是一些小数据集 , 开源数据集也都有各自针对的领域 , 而通用的大数据集我们是很难获取的 。 当然 , 这还没有考虑算力 。 大规模预训练是需要 GPU 集群的 , 不是我们手上几块 1080Ti 能搞定的 。
就算不考虑数据与算力 , 开源预训练模型使用的训练集也很可能与我们自己的数据集存在巨大差异 。 例如 , 预训练模型的数据都是自然风景 , 但我们的数据集都是动漫人物 。 那么放在一起就可能出现负向迁移 , 什么训练收敛慢、模型效果差等都会一一困扰着你 。
因此 , 一个包含各类场景、覆盖用户各类需求的超大规模数据集就显得十分重要了 。 通过这个包罗万象的超大规模数据集训练所得的模型才能够更好地适应各行各业的需求 , 我们才能在自己的数据集上得到效果更好的模型 。
预训练 , 交给大厂吧
这样的超大规模预训练 , 也就大厂能够做到 。 百度独有的超大规模数据集使其预训练模型具备了更好的泛化能力 , 迁移学习的效果也更好 , 目前已覆盖自然语言处理和视觉两大方向 。
在自然语言处理方向 , 百度自研了业界效果最好的预训练模型文心(ERNIE) 。 它开创性地将大数据预训练与多源丰富知识相结合 , 通过持续学习技术 , 不断吸收海量文本数据中词汇、结构、语义等方面的新知识 , 实现模型效果不断进化 , 如同人类持续学习一样 。
在刚刚结束的 2020 世界人工智能大会上 , 百度正式发布了 ERNIE 的中文名 “文心” 。 同时 , 百度还摘得了大会颁布的最高奖项——Super AI Leader 奖 , 彰显了在 NLP 领域的超强实力 。
在最新的文心 ERNIE 2.0 中 , 中文模型已经学习了 1500 万篇百科语料和词语、实体知识 ,3 亿篇文章的因果结构关系 ,10 亿次的搜索查询与结果的对应关系 , 700 万个人类对话 , 以及 2000 万的语言逻辑关系知识 。 此外 , 模型还在持续不断地建模新的海量数据与能力 , 不断地提升下游的应用效果 。 这些硬核实力也让文心(ERNIE)在 16 个中英文典型 NLP 任务上显著超越了当时的 SOTA 结果 。


推荐阅读