「环球网」SemEval 2020结果出炉 飞桨ERNIE斩获5项冠军

近日 , 全球规模最大的语义评测比赛 SemEval 2020结果出炉 , 百度基于飞桨平台自研的语义理解框架 ERNIE一举斩获5项世界冠军 , 囊括视觉媒体的关键文本片段挖掘、多语攻击性语言检测和混合语种的情感分析 。
「环球网」SemEval 2020结果出炉 飞桨ERNIE斩获5项冠军
文章图片
SemEval是全球范围规模最大、参赛人数最多的权威语义评测竞赛,由国际计算语言学协会(Association for Computational Linguistics, ACL)的 SIGLEX主办 。 自2001年起 , SemEval已成功举办十四届 , 在业界和学术界具有极高影响力 。 此次SemEval和自然语言处理领域的顶级会议COLING联合举办 。
ERNIE是此次五项世界冠军背后的“趁手利器” 。 去年 , ERNIE先后完成两版重大升级 。 ERNIE1.0提出知识增强的语义表示模型 , 而ERNIE 2.0则构建了持续学习语义理解框架 , 在中英文16个任务上超越业界最好模型 。 此后 , ERNIE模型再次改进 , 以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的GLUE评测榜单 。 本次比赛 , ERNIE再度创新 , 再立战功 , 夺得五项世界冠军 。
让AI更懂“轻重”:视觉媒体的关键文本片段挖掘
该任务由美国休斯顿大学、Adobe美国研究院联合举办 , 旨在自动挖掘海报、广告、传单等视觉媒体中文本的关键片段 , 对其进行重点设计 , 提升宣传效果 。 由于人们对于同一文本重要内容的判断不一致 , 在没有唯一标准的情况下 , 该任务存在极大的难度 。
「环球网」SemEval 2020结果出炉 飞桨ERNIE斩获5项冠军
文章图片
【「环球网」SemEval 2020结果出炉 飞桨ERNIE斩获5项冠军】比赛中 , 主办方Adobe希望将赛题的解决方案应用于Adobe Spark , 赋予其海报自动设计能力 , 以达到更好的宣传效果 。 如下图所示的“ERNIE”、“轻重”的黑白效果就是自动挑选的结果 。 百度ERNIE团队采用ERNIE让AI更懂文字的“轻重” , 释放广大视觉设计者的劳动力 , 使其能够更专注于对核心内容的设计 。 此外 , 该项技术已应用于百度搜索 , 能够动态分析出用户查询内容中的重要片段 , 使其返回更精准的搜索结果 , 让百度更懂您 。
让世界更有“AI”:多语攻击性语言检测
该任务由多个国家的研究机构联合举办 。 其中包括了英国剑桥大学、美国IBM研究院、以及来自德国、丹麦、卡塔尔的多所著名大学和研究院 。 该任务包含了三个子任务:
第一个子任务是在对英语、丹麦语、希腊语、阿拉伯语和土耳其语等包含五种语言的社交媒体进行攻击性检测 。 百度ERNIE团队构建了大规模的多语预训练模型 , 充分挖掘海量的多语无监督文本 , 用相同的模型来学习所有语种的语义表示 , 使模型具备跨语言的理解和分析能力 。 同时 , 采用Multi-lingual Fine-tuning的方法 , 利用其他语言的知识辅助建模 , 最终以五项语言平均分第一名的成绩取得冠军 。
「环球网」SemEval 2020结果出炉 飞桨ERNIE斩获5项冠军
文章图片
随着网民人数的不断增加 , 网民态度立场不同、文化水平及道德素质参差不齐的状况便摆在我们面前 。 网络暴力和网络人身攻击现象由此而生 。 政府、社交网站、搜索引擎、兴趣社区都在大力研究如何检测出社交媒体攻击性行为 , 帮助人们构建一个更加和谐友爱的网络环境 。 百度的研究者也希望通过这一技术 , 能够让世界充满“AI” , 少一些偏见 。
让AI更有情感:混合语种的情感分析
该任务的主办方包括谷歌研究院、美国休斯敦大学以及印度的多所高校等 。 在比赛中 , 主办方搜集了源于社交网络的语料片段 , 测试参赛者对于相关语料片段的情感分析能力 。 这些语料中都包含一种特殊的语言现象:语码混用——即一段语料中同时混有多种语言 。 主办方致力于探索时下的 AI技术对于这一类新问题的解决能力 。


推荐阅读