moe是什么意思(moe是什么意思中文人名)( 二 )


相当于
499.00
292.15
MT-NLG使用15个数据集,总共包含3390亿个令牌 。

相比之下,中文的训练数据要少得多 。
最大的开源项目CLUECorpus2020仅包含100GB的高质量数据集 。

https://github.com/CLUEbenchmark/CLUECorpus2020
为了获得高质量的数据集,源码1.0的团队开发了一套大数据过滤系统(MDFS),包括数据采集、粗过滤和精过滤三个部分 。

数据预处理流程图
数据主要来源于普通爬虫、搜狗新闻、搜狗互联网语料库版本(SogouT,2016)、百科数据和图书数据 。

要清理的原始数据
在对原始语料进行粗略筛选后,团队训练了一个基于Bert的模型,对高质量、低质量和广告内容进行分类,并辅以人工筛选 。

精细过滤后的高质量语料库规模
最终获得5TB的高质量中文数据集,包括近5年中文互联网的全部内容,近2000亿字 。

计算效率up!
数据集和模型建好了,就该谈训练了 。
最新的MT-NLG搭载560台DGX A100服务器,每台服务器有8个NVIDIA A100 80GB张量核心图形处理器,即4480块A100显卡 。每个GPU的计算能力直接达到每秒113万亿次浮点运算 。
GPT-3的训练是在超过285000个CPU核和超过10000个GPU上完成的 。在训练过程中,GPU达到每秒2733亿次浮点运算 。
源码1.0只用了2128个GPU,仅用了16天就完成了训练 。
这是怎么做到的?
源码1.0团队创新性地采用了张量并行、流水线并行、数据并行的三维并行策略 。

张量平行性
在张量并行策略中,模型的层在节点中的设备之间划分 。当变换器结构进行正向计算和反向传播时,注意层和多层感知器层的张量会按行或列拆分 。输入张量首先会被送到每个加速器,每个张量会在加速器中独立地向前计算 。

并行流水线
流水线在多个节点之间并行划分LM的层序列,解决存储不足空的问题 。每个节点都是管道中的一个阶段,它接受前一阶段的输出,并将结果发送到下一阶段 。如果前一个相邻节点的输出没有准备好,则当前节点将处于空空闲状态 。

数据并行性
当采用数据并行时,根据流水线的分组来划分全局批量 。每个管道组都包含一个模型副本,并且根据组内的本地批处理大小将数据发送到模型副本 。
由此,“源码1.0”的训练成本约为4095PD(PetaFlop/s-day) 。与“GPT-3”的3640PD相比,计算效率大大提高 。
在零样本和小样本学习「霸榜」
为什么说大款的时候会提到这两个货?
原因很简单 。人类只需要通过一个或几个例子就可以很容易地建立自己对新事物的知识,而机器学习算法通常需要成千上万的监督样本来保证其泛化能力 。
是否具备从少量样本中学习和总结的能力,是区分人工智能和人类智能的明显分界点 。其中,零样本学习可以判断计算机能否具备人类的推理和知识转移能力,它可以在没有任何训练数据的情况下识别一个从未见过的新事物 。
简单来说,零样本学习是指训练好的分类器不仅能识别训练集中已有的数据类别,还能将数据与看不见的类别区分开来;小样本学习就是利用远小于深度学习所需的数据样本量,达到深度学习接近甚至超越大数据的效果 。

无论是“GPT-3”还是“MT-NLG”,都强调自己在这两方面的学习能力 。
当然,两者的区别在于,SOTA的前身“GPT-3”是被“NLG山”以微弱优势“干掉”的 。

“GPT-3”在拉姆达和PIQA测试集中的成就

“MT-NLG”在LAMBDA和PIQA测试集中的成绩
《源码1.0》虽然不能直接将两者相提并论,但它在——中文评测最大标杆——CLUE上的表现还是很有说服力的 。
在ZeroCLUE的零样本学习榜单中,“源码1.0”遥遥领先业界最好成绩18.3% 。在文献分类、新闻分类、商品分类、母语汉语推理、成语阅读理解空、名词代词关系六项任务中获得冠军 。

在FewCLUE的小样本学习清单中,“源1.0”在文档分类、商品分类、文档摘要识别、名词代词关系四个任务中获得冠军 。

毕竟刷榜就是刷榜 。虽然成绩很好,但在实战中还是很容易被人类“识破” 。

但其实从成绩单上的分数可以看出,英中模特和人类还是有很大差距的 。
尤其是在情感理解和话题表达方面没有具体规律的情况下,比如写诗,写故事等等 。
大模型,去哪?
AI巨头竞相追逐模型规模的新高度,自然带来了一个灵魂的问题:他们在探索什么?


推荐阅读