『』40种语言、9项推理任务，谷歌发布新的NLP基准测试Xtreme

文章图片

文章图片

大数据文摘出品
来源：VB
编译：曹培信、刘俊寰
目前，全球存在着超过6900种语言，这是自然语言处理研究者们的巨大噩梦。因为大多数语言都是数据稀疏的，研究者找不到足够多的数据来单独训练成熟模型。
但幸运的是，许多语言共享大量的基础结构。比如在词汇层面上，语言通常具有源自同一来源的单词，例如，英语中的“desk”和德语中的“Tisch”都来自拉丁语“disus” 。同样，许多语言也以相似的方式标记语义角色，例如使用后置位置标记中文和土耳其语的时空关系。
谷歌今天发布了一个自然语言处理系统基准测试Xtreme ，其中包括对12种语言家族和40种语言进行的9项推理任务。这家科技巨头的研究人员断言，它能够评估人工智能模型是否能够学习跨语言的知识，这对于越来越多的自然语言应用程序是有用的。
谷歌也在官博上介绍了Xtreme：
https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

文章图片

文章图片

这一基准测试的目标是促进人工智能多语言学习领域的研究，在这个领域，已经有大量工作研究了是否可以利用数据稀疏的语言结构来训练可靠的机器学习模型。
选择Xtreme作为基准测试是为了最大限度地扩大多样性，扩大现有任务的覆盖面，以及提供训练数据。其中包括一些未被充分研究的语言，例如在印度南部、斯里兰卡和新加坡使用的达罗毗荼语系语言泰米尔语，主要在印度南部使用的泰卢固语和马拉雅拉姆语，以及在非洲使用的尼日尔-刚果语系斯瓦希里语和约鲁巴语。
Xtreme的9项任务涵盖了一系列基本范式，包括句子分类（即将一个句子分配给一个或多个类）和结构化预测(预测实体和词类等对象)，以及句子检索（对一组记录进行查询匹配）和高效的问答。

文章图片

文章图片

Google的Xtreme基准支持的任务
模型要先在跨语言学习的文本上进行预训练后，才能在Xtreme上进行测试。然后，考虑到英语是最有可能具有标记数据的语言，他们必须针对特定任务的英语数据进行微调。Xtreme评估了这些模型的零点跨语言转移性能（zero-shot cross-lingual transfer performance），也就是在其他语言中没有看到任务特定的数据。对于在其他语言中可以使用标记数据的任务， Xtreme还比较了对语言内数据的微调，并通过获得所有任务的零概率得分最终得出一个综合分数。
在Xtreme初步实验中，谷歌的一个研究团队发现，即使是最先进的多语言模型，如BERT、XLM、XLM-r和M4 ，也都没有达到预期水平。其中， BERT对西班牙语的准确率为86.9/100 ，日语则只有49.2/100 ，要转换成非拉丁文字也十分困难，而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体，比如，在印度尼西亚语和斯瓦希里语上的准确率分别为58.0和66.6 ，而在葡萄牙语和法语上的准确率为82.3和80.1 。

文章图片

文章图片

Google Research高级软件工程师Melvin Johnson和DeepMind科学家Sebastian Ruder在一篇博客文章中写道：“我们发现，尽管模型在大多数现有的英语任务中，表现已接近人类，但在许多其他语言中表现尚不足预期。总的来说，在模型和模拟环境中，英语和其它语言的表现之间仍然存在巨大差距，这也表明，跨语言迁移的研究潜力很大。”

『』40种语言、9项推理任务，谷歌发布新的NLP基准测试Xtreme

推荐阅读

@国家药监局点名，这些医疗器械危险

29年后，释小龙成老板，郝劭文养继女，为何走上不同路？

乙烯妹妹|破洞黑色牛仔裤搭配黑色T，可爱不失风度，简单却抓人眼球

知识百科|都错了! 福州大学2020年分数线出炉, 福大完胜，欠福师大一个211?

第一财经|视频丨拜登宣布胜选，比尔?盖茨、贝索斯等科技圈大佬纷纷发帖祝贺

化妆|职场中的女性该如何注意自己的妆容及言行举止

娱到吐槽|直播秀眼睛仍不自然，32岁景甜承认双眼皮整形失败变“悲伤蛙”

“小康路上一刻也不能停歇”

小朋友可以去开冰箱小孩在冰箱旁边玩可以吗

「泡泡网资讯」玩手游选它就对了，90帧运行畅快吃鸡不卡顿

大海说军事@2万美军掉头就跑，俄：后院起火了？，18国联军正扑向俄边境

万象之昼夜观察|美国将改革弹药厂系统

央视版水浒传最成功的十个角色, 武松第一, 牛二上榜

央视|埃塞首都发生严重火灾财产损失超1200万比尔

星座小知识分享|实则痴情浓浓的3星座，爱到骨子里，看似相爱不用真心

庞麦郎|庞麦郎自认自己很火走红后不承认农村父母演唱会观众没有保镖多

手机中国|Fold 2新渲染图曝光颜值超高或8月初发布，三星Galaxy

#时尚迪科#颜值依旧抗打，董洁总算换风格了！穿Polo衫配羽毛裙复古感十足

“安装完这组彩灯，就回家过年”——探访为

硫磺八角二氧化硫超原国标16倍食品犯罪直接按照投毒罪上线判决吧