moe是什么意思(moe是什么意思中文人名)

艺术经纬:我是困桃 。
【新智元导读】AI大模型「环球影城」正式开业!汽车人、霸天虎共集结,这次不是为了赛博坦,也不是元宇宙,而是为了疯狂争夺「火种源」 。现实世界中,AI巨头在也在为这一生命之源——大模型展开了无尽的争夺战。
AI模型领域的环球影城正式开业!

汽车和霸天虎聚集,这一次不是为了赛博坦,而是为了疯狂争夺“火种源” 。

在现实世界中,AI巨头们也在争夺这个“生命之源”——大模型,并进行巅峰对决 。
500亿个参数,烧了4480个NVIDIA GPUs,威震天图灵(MT-NLG)可以说是目前最大的语言模型 。此外,GPT-3有1750亿个参数,浪潮有2457亿个参数 。...
自2018年Google推出BERT模型以来,语言模型越做越大,仿佛没有尽头 。短短几年时间,模型参数从最初的3亿扩大到数万亿 。
然而,这并不是结束 。对“火种源”的争夺还在继续 。
那么,这些AI巨头到底在争什么,在探索什么呢?
大模型是正确的方法吗?
下一个模型有多大? ∞
从国外来看,2018年,Google提出了4个令人惊艳的BERT模型,拥有3亿个参数,将自然语言处理推向了前所未有的新高度 。
可以说,谷歌最先掀起了大机型的热潮 。

紧接着,2019年初,OpenAI引入了GPT-2150亿参数,可以生成连贯的文本段落,实现初步的阅读理解、机器翻译等 。
有英伟达威震天-LM的83亿个参数,谷歌T5模型的110亿个参数,微软图灵-NLG模型的170亿个参数 。
这些模型一次次不断刷新参数尺度的数量级,但2020年将成为这个数量级的分界线 。
火灾的GPT-31750亿参数,其规模达到数千亿,几乎等于人类神经元的数量 。
会写诗,会聊天,会生成代码,等等,什么都会 。

近日,微软和英伟达联合发布了拥有5300亿个参数的威震天-图灵自然语言生成模型(MT-NLG) 。
同时号称获得了单变压器语言模型领域“最大”和“最强”的称号 。

除了千亿级的稠密单体模型,还有万亿级的稀疏混合模型 。
如果把单一模式比作珠穆朗玛峰,那么混合模式就是喜马拉雅山的其他小峰 。
谷歌在今年年初推出了1.6万亿参数的Switch Transformer 。致远“启蒙2.0”的1.75万亿参数,再次刷新了万亿参数规模的纪录 。
多么“百家争鸣”的趋势 。
为什么会这样?总之,大模式是大势所趋,是要争取的高地!
今天大模型的盛世和深度学习的时代很像 。
就像十几年前深度学习的兴起一样,国内外的AI巨头都看到了这项技术的未来,于是纷纷进入这一领域,深度学习的各种模型也在不断涌现 。
现在,大模式只会变得越来越快 。
NLP单体模型大PK
那么,我们为什么要比较这些模型呢?
在讨论这个问题之前,我们需要知道大的模型都分为哪些 。
比如从模型架构的角度:单体和混合;功能:NLP,CV,对话等 。

其中,Google的“Switch Transformer”使用混合专家(MoE)模型对模型进行分割,结果是一个稀疏激活模型 。虽然节省了计算资源,但是精度很难提高 。


目前自然语言处理领域单机大模型的顶级流程有:GPT-3、MT-NLG、源码1.0 。

https://arxiv.org/pdf/2110.04725.pdf
但是中英文模式还是有很大区别的 。
在自然语言理解方面,汉语的训练难度更大,因为分词方法不同,同一个短语歧义不同,新词汇也不同 。
比如分词的难度:中国科学技术大学;中国科技大学;中国科技大学 。这三种不同的分词形式有非常不同的意思 。这只是其中之一 。
所以中国NPL模型的训练难度要高于同量级的英文模型 。
要做就做最大的
英语高质量文本数据集可谓五花八门 。
那堆东西;配有HackerNews、Github、Stack Exchange、ArXiv甚至YouTube字幕;普通爬行;,一个包含超过50亿条网页元数据的数据平台;你甚至可以使用Reddit论坛的内容进行培训 。
以Pile为例,它包含825GB不同的开源语言建模数据,由22个较小的高质量数据集组成 。

GPT-3采用了规模超过292TB和499亿令牌的数据集 。

代币(1亿)
纪元
有效规模(TB)
通用爬网(www)
410.00
0.44
180.40
网络文本(Reddit链接)
19.00
2.90
55.10
书籍2 (Libgen或类似产品)
55.00
0.43
23.65
Books1/BookCorpus (Smashwords)
12.00
1.90
22.80
维基百科(事实)
3.00
3.40
10.20


推荐阅读