PingWest品玩|如何打造中国版的“万能AI”GPT-3
既能问答、翻译、写文章 , 也能写代码、算公式、画图标......OpenAI2020年5月推出的GPT-3 , 因其神奇的通用性而走红AI领域 。
文章图片
GPT-3是用英文语料做预训练的 , 主要应用于英文相关场景 , 而中文业界和学术界已经出现了期待中文版GPT-3的声音 。
“GPT-3与出门问问的技术基础紧密相关 。 虽然现阶段GPT模型还并非完美 , 但它是目前我们能看到 , 通往更加通用的语言智能的重要路径之一 。 ”从事中文语音交互的AI公司出门问问创始人兼CEO李志飞告诉品玩 。
出门问问一直对更加通用的语言智能很感兴趣 。 团队正深入理解GPT-3的相关论文 , 推进相关实验 , 尝试提升训练效率等工作 。
文章图片
如何打造中文版GPT-3?
那么 , 如果要打造一个中文版的GPT-3 , 该怎么操作?
“与英文相比 , 中文版GPT-3的诞生将经历一个从零到一的过程 , 可以借鉴英文GPT-3技术迭代的相关经验 。 ”李志飞对品玩表示 。 GPT-3的技术迭代之路 , 是一个不断增大训练数据量和模型参数规模的过程 。
本质上 , GPT-3是一个大规模预训练NLP(自然语言处理)模型 。 大规模预训练是指 , 先用大量没有标注的语料做无监督学习 , 得到一套模型参数 , 然后再用少量标注语料精调 , 最后应用于具体的下游NLP任务 。 这种模式已经诞生了不少成功的NLP模型 , 如Google2018年推出的Bert , 但其通用性上依然不足 。 直到GPT-3推出 , 让这类预训练模型的通用性上了一个台阶 。
从GPT第一代到GPT-3 , 其模型层面一直都是基于Transformer(一种领先的提取语义特征方法)做预训练 , 没有什么改变 , 但训练数据量和模型规模十倍、千倍地增长 。
2018年6月发布的GPT第一代 , 预训练数据量仅为5GB 。 GPT-2增长为40GB , GPT-3更是猛增到45TB(等于45000GB) 。 而模型规模方面 , 从GPT第一代的1.17亿参数量 , 指数增长为1750亿 。
文章图片
随着数据量和模型规模的增大 , GPT逐渐舍弃了用少数标注语料精调这一步 , 完全基于预训练得出的参数 , 去做下游任务 , 精确度依然有一定保证 。
GPT所需算力也越来越夸张 , 初代GPT在8个GPU上训练一个月就行 , 而GPT-2需要在256个GoogleCloudTPUv3上训练(256美元每小时) , 训练时长未知 。 到GPT-3 , 预估训练一个模型的费用超过460万美元 。
相应地 , 参与到GPT论文的作者从初代的4位 , 增加到第三代的31位 。 并且 , 31位作者分工明确 , 有人负责训练模型 , 有人负责收集和过滤数据 , 有人负责实施具体的自然语言任务 , 有人负责开发更快的GPU内核 。
文章图片
借鉴GPT-3的迭代经验 , 李志飞认为开展中文GPT-3模型训练比较合理的路径是:“从中小规模的模型入手 , 开展研究及实验 , 达到一定效果后再推广到大模型上进行验证” 。
至于人力方面的配置 , 他表示GPT是一个非常综合的大系统工程 , 涉及到学术、工程、商业等团队之间的大规模协同 。 一般需要搭建几十人的团队 , 其中包括科学家、工程师、项目经理等角色 。
虽然可以借鉴英文GPT-3技术迭代的相关经验 , 但是在创建中文版GPT-3的过程中 , 也需要解决很多独特的问题 , 如中文训练数据、算力等 。
“一方面 , 我们需要将更多的时间精力 , 投入在高质量、多样性的训练文本的获取上 。 ”李志飞说 , “另一方面 , 计算的效率问题 , 也是目前大规模深度学习模型训练所面临的共同挑战 。 ”
推荐阅读
- 数码鲜蜂|三星大秀肌肉!这个透明手机如何?
- 马云|当年在美国为马云“挡子弹”的保镖,失去百万年薪后,现状如何?
- 阿狸先森|现今如何了?,被联想198亿元收购的巨头摩托罗拉
- 猛犸象|为钻研永生的秘密,俄罗斯科学家不惜注射猛犸象细菌,结果如何
- 小城时光说资讯|如何判断手机寿命有多长?如果出现这3个问题,说明你该换手机了,原创
- 白宫|越遭封锁越强大!长征二号发射鳖版X37B,白宫苦恼:如何做到的?
- 数评时代|面对新情况华米OV如何应对?,国内手机销量大降
- UC|如何在UC赚钱,我推荐这三个领域,零基础也能一天300!
- 品玩|手机云台还能怎么进步?大疆:咔嗒一吸
- 网贷平台|假如网贷平台宣布良性退出,作为出借人,你该如何选择?