Google|LaBSE：一套支持109种语言的新语言不可知论内嵌模型 LaBSE：一套支持1

【Google|LaBSE：一套支持109种语言的新语言不可知论内嵌模型】据外媒报道，自transformer架构诞生以来，自然语言处理(NLP)和自然语言生成(NLG)领域就受益匪浅。Transformer模型如BERT及其衍生物已经被应用到一系列领域中，包括情绪分析和分类。近年来，为了让这些模型变得更加健全，相关人员付出了大量的努力，尤其是通过扩展蒙面语言模型(MLM)的预培训并将其跟翻译语言建模(TLM)结合起来从而使得模型变为语言不可知论。
尽管事实证明，这种MLM和TLM的联系有助于下游任务的微调，但截止到目前，它们还没有直接生成多语言句子嵌入，而这对于翻译任务是至关重要的。考虑到这一点，谷歌的研究人员现在推出了一种多语言BERT嵌入模型，叫做“语言不可知论BERT句子嵌入(Language-agnostic BERT Sentence Embedding，简称LaBSE)”，它在一个单一模型上为109种语言生成语言不可知论的跨语言句子嵌入。简单地说，LaBSE将MLM和TLM预培训结合在一个12层transformer上，据悉，该转换器包含有500,000个带有使用双向双编码器完成的翻译排序任务的token 。

文章图片

为了训练这个模型，研究人员使用了170亿个单语句子和60亿对双语句子。一旦训练完成就会使用Tatoeba语料库对LaBSE进行评估，据悉,该模型的任务是利用余弦距离为给定的句子找到最近邻的翻译。
结果表明，即使在训练过程中没有数据可用的低资源语言上该模型也是有效的。除此之外，LaBSE还在多个并行文本或双语文本检索任务上建立了一个艺术新状态(SOTA) 。具体地说，随着语言数量的增加，传统的模型如m~USE和LASER模型，其在平均精度上表现出比LaBSE更明显的下降。
据了解，LaBSE的潜在应用包括从网络中挖掘并行文本。研究人员则将其应用到CommonCrawl上，进而从LaBSE预处理和编码的77亿英语句子库中寻找潜在的翻译。有了这些嵌入，翻译模型显示出了极高的准确性，其分数达到了35.7和27.2 。谷歌写道：“这跟目前在高质量并行数据上训练的先进模型只有几分之遥。”
现在，这个预训练模型可以在TensorFlow Hub找到。

Google|LaBSE：一套支持109种语言的新语言不可知论内嵌模型

推荐阅读

宋仲基|宋仲基和英国女友凯蒂·刘易斯·桑德斯的爱情故事

其他赛区|众解说预测LCK夏决：普遍看好DWG，仅两人认为DRX能险胜

血糖高能吃豆腐吗？

大一绩点比较低，大二大三努力，出国有没有希望申请好学校

渝芃时尚达人|12500包包好奢侈，宋佳衣品又飒又美！衬衫配工装裤简约帅气

你见过的喜欢沉溺在自己的世界的文艺青年，后来咋了

新科技疯汇5G交替之际，学生机怎么选，4G

200年内地球会毁灭吗,霍金关于地球200年后的预言,是真的吗--

#搭配#韩国最萌身高差情侣，不用情侣款却穿出亲密感，每一张都像撒狗粮

儿童床垫有哪些类别？孩子睡什么床垫好

向风而行|《向风而行》：托稳行业剧底线，拔高情感剧上限

国家|欧洲的美女“巨人国”：口味很独特，女游客最好别带男友来！

「社区」为居民送菜、为2500多楼栋单元消杀，机场集团200余志愿

仙女|仙气飘飘的白色连衣裙，上身宛如仙女一般美丽

详细解析Linux /etc/passwd文件

潮男穿搭时尚社|白色V领针织衣搭配蓝色牛仔裤，简单大方，清新减龄

看看腊月二十四有哪些传统习俗腊月二十四的习俗

吃药能喝菊花茶吗

隐秘而伟大|足协不该实施限薪令，国足球员拿几百上千万年薪，是应该的！

魔兽世界|魔兽世界：28分钟单刷泰兰德，被无情“嘲讽”，铁炉堡也“陷落”