PingWest品玩|如何打造中国版的“万能AI”GPT-3

既能问答、翻译、写文章 , 也能写代码、算公式、画图标......OpenAI2020年5月推出的GPT-3 , 因其神奇的通用性而走红AI领域 。
PingWest品玩|如何打造中国版的“万能AI”GPT-3
文章图片
GPT-3是用英文语料做预训练的 , 主要应用于英文相关场景 , 而中文业界和学术界已经出现了期待中文版GPT-3的声音 。
“GPT-3与出门问问的技术基础紧密相关 。 虽然现阶段GPT模型还并非完美 , 但它是目前我们能看到 , 通往更加通用的语言智能的重要路径之一 。 ”从事中文语音交互的AI公司出门问问创始人兼CEO李志飞告诉品玩 。
出门问问一直对更加通用的语言智能很感兴趣 。 团队正深入理解GPT-3的相关论文 , 推进相关实验 , 尝试提升训练效率等工作 。
PingWest品玩|如何打造中国版的“万能AI”GPT-3
文章图片
如何打造中文版GPT-3?
那么 , 如果要打造一个中文版的GPT-3 , 该怎么操作?
“与英文相比 , 中文版GPT-3的诞生将经历一个从零到一的过程 , 可以借鉴英文GPT-3技术迭代的相关经验 。 ”李志飞对品玩表示 。 GPT-3的技术迭代之路 , 是一个不断增大训练数据量和模型参数规模的过程 。
本质上 , GPT-3是一个大规模预训练NLP(自然语言处理)模型 。 大规模预训练是指 , 先用大量没有标注的语料做无监督学习 , 得到一套模型参数 , 然后再用少量标注语料精调 , 最后应用于具体的下游NLP任务 。 这种模式已经诞生了不少成功的NLP模型 , 如Google2018年推出的Bert , 但其通用性上依然不足 。 直到GPT-3推出 , 让这类预训练模型的通用性上了一个台阶 。
从GPT第一代到GPT-3 , 其模型层面一直都是基于Transformer(一种领先的提取语义特征方法)做预训练 , 没有什么改变 , 但训练数据量和模型规模十倍、千倍地增长 。
2018年6月发布的GPT第一代 , 预训练数据量仅为5GB 。 GPT-2增长为40GB , GPT-3更是猛增到45TB(等于45000GB) 。 而模型规模方面 , 从GPT第一代的1.17亿参数量 , 指数增长为1750亿 。
PingWest品玩|如何打造中国版的“万能AI”GPT-3
文章图片
随着数据量和模型规模的增大 , GPT逐渐舍弃了用少数标注语料精调这一步 , 完全基于预训练得出的参数 , 去做下游任务 , 精确度依然有一定保证 。
GPT所需算力也越来越夸张 , 初代GPT在8个GPU上训练一个月就行 , 而GPT-2需要在256个GoogleCloudTPUv3上训练(256美元每小时) , 训练时长未知 。 到GPT-3 , 预估训练一个模型的费用超过460万美元 。
相应地 , 参与到GPT论文的作者从初代的4位 , 增加到第三代的31位 。 并且 , 31位作者分工明确 , 有人负责训练模型 , 有人负责收集和过滤数据 , 有人负责实施具体的自然语言任务 , 有人负责开发更快的GPU内核 。
PingWest品玩|如何打造中国版的“万能AI”GPT-3
文章图片
借鉴GPT-3的迭代经验 , 李志飞认为开展中文GPT-3模型训练比较合理的路径是:“从中小规模的模型入手 , 开展研究及实验 , 达到一定效果后再推广到大模型上进行验证” 。
至于人力方面的配置 , 他表示GPT是一个非常综合的大系统工程 , 涉及到学术、工程、商业等团队之间的大规模协同 。 一般需要搭建几十人的团队 , 其中包括科学家、工程师、项目经理等角色 。
虽然可以借鉴英文GPT-3技术迭代的相关经验 , 但是在创建中文版GPT-3的过程中 , 也需要解决很多独特的问题 , 如中文训练数据、算力等 。
“一方面 , 我们需要将更多的时间精力 , 投入在高质量、多样性的训练文本的获取上 。 ”李志飞说 , “另一方面 , 计算的效率问题 , 也是目前大规模深度学习模型训练所面临的共同挑战 。 ”


推荐阅读