Google|LaBSE:一套支持109种语言的新语言不可知论内嵌模型
【Google|LaBSE:一套支持109种语言的新语言不可知论内嵌模型】据外媒报道,自transformer架构诞生以来,自然语言处理(NLP)和自然语言生成(NLG)领域就受益匪浅 。Transformer模型如BERT及其衍生物已经被应用到一系列领域中,包括情绪分析和分类 。近年来,为了让这些模型变得更加健全,相关人员付出了大量的努力,尤其是通过扩展蒙面语言模型(MLM)的预培训并将其跟翻译语言建模(TLM)结合起来从而使得模型变为语言不可知论 。
尽管事实证明,这种MLM和TLM的联系有助于下游任务的微调,但截止到目前,它们还没有直接生成多语言句子嵌入,而这对于翻译任务是至关重要的 。考虑到这一点,谷歌的研究人员现在推出了一种多语言BERT嵌入模型,叫做“语言不可知论BERT句子嵌入(Language-agnostic BERT Sentence Embedding,简称LaBSE)”,它在一个单一模型上为109种语言生成语言不可知论的跨语言句子嵌入 。简单地说,LaBSE将MLM和TLM预培训结合在一个12层transformer上,据悉,该转换器包含有500,000个带有使用双向双编码器完成的翻译排序任务的token 。
文章图片
为了训练这个模型,研究人员使用了170亿个单语句子和60亿对双语句子 。一旦训练完成就会使用Tatoeba语料库对LaBSE进行评估,据悉,该模型的任务是利用余弦距离为给定的句子找到最近邻的翻译 。
结果表明,即使在训练过程中没有数据可用的低资源语言上该模型也是有效的 。除此之外,LaBSE还在多个并行文本或双语文本检索任务上建立了一个艺术新状态(SOTA) 。具体地说,随着语言数量的增加,传统的模型如m~USE和LASER模型,其在平均精度上表现出比LaBSE更明显的下降 。
据了解,LaBSE的潜在应用包括从网络中挖掘并行文本 。研究人员则将其应用到CommonCrawl上,进而从LaBSE预处理和编码的77亿英语句子库中寻找潜在的翻译 。有了这些嵌入,翻译模型显示出了极高的准确性,其分数达到了35.7和27.2 。谷歌写道:“这跟目前在高质量并行数据上训练的先进模型只有几分之遥 。”
现在,这个预训练模型可以在TensorFlow Hub找到 。
推荐阅读
- 男团|Baby说一套做一套,惹跑男团成员看不下去,接连打脸节目组
- Google|谷歌将从Play Store中下架Fediverse应用因其可被用来访问仇恨言论
- 为了一套房,萧山女子找人假冒丈夫
- Google|Google Assistant新功能让直接向重要非营利组织捐款变得更加容易
- 渭水三农人|一个怀孕大母羊和两只四十多斤的小母羊一套能值多少钱
- Google|Google 首次完成化学反应的量子模拟
- Google|YouTube正在测试iOS应用的原生画中画模式
- Google|谷歌量子计算登《科学》封面 量子模拟了化学反应
- Google|谷歌doodle纪念法国大作家大仲马
- Google|Google Duo视频通话服务将登陆Android TV智能电视