中科院之声|试试让机器自己生成摘要？丨智言智语

编者按: 智显未来，洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏，为你介绍人工智能相关知识与故事，从最新成果到背后趣闻，带你徜徉AI空间，看人工智能如何唤醒万物，让世界变得更美好。

本文插图
【中科院之声|试试让机器自己生成摘要？丨智言智语】
本文插图

本文插图
跨语言自动摘要是一项对源语言文本核心信息进行内容归纳，以目标语言的形式组织成摘要的任务，可广泛应用于内容推荐（为用户推荐外语新闻）和跨境电商（辅助用户决策）等场景，让大众体验技术的魅力。
此前，由于源文档与其相应的跨语言参考摘要的数据对（也称作：平行数据）的缺失，大多数已有跨语言自动摘要方法只能采用“先翻译后摘要”或者“先摘要后翻译”等管道式方法实现。这类方法将跨语言自动摘要割裂为单语言自动摘要和机器翻译两个步骤，前一步骤的误差直接影响后一步骤的性能，导致误差传播，进而制约摘要质量的提升。

本文插图
图1 管道式跨语言自动摘要方法示意图
为缓解此问题，研究人员开始尝试构建跨语言自动摘要平行数据，并在此基础上开展基于深度学习的跨语言自动摘要方法（或称神经跨语言自动摘要）研究。
跨语言自动摘要任务与负责摘要的单语言自动摘要任务和与负责翻译的机器翻译任务均密切相关：

单语言自动摘要和跨语言自动摘要既有共性，也有区别，共性在于两者具有一致的目标——获得原文的核心内容；区别在于最终呈现的语言形式与原文语言一致与否。
对于机器翻译和跨语言自动摘要而言，从信息压缩的角度来看，机器翻译可以被视为一种特殊的跨语言自动摘要，即信息压缩比为1:1的跨语言自动摘要。

因此，研究人员提出了一种基于多任务学习的跨语言自动摘要方法，该方法将跨语言自动摘要模型同单语言自动摘要模型或者机器翻译模型联合进行优化，取得了相当良好的性能。然而，基于多任务学习的方法由于依赖外部数据，模型容量较大且需要很长的训练时间，仍然难以应用于真实场景。
针对此问题，中科院自动化所自然语言处理团队提出一种融合翻译模式的跨语言自动摘要方法，有效缓解已有方法的缺陷，相关成果发表于第五十八届国际计算语言学年会（ACL-2020）。

本文插图
图2 “翻译”现象的示例
该工作受跨语言自动摘要中存在的目标端词汇可通过翻译源端某些词汇得到，这一“翻译”现象的启发，提出将跨语言自动摘要分解为三个步骤：聚焦（attend）、翻译（translate）和归纳（summarize），整体框架如图3所示。具体而言，该方法首先通过注意力机制对原文包含的重要内容词进行聚焦，并得到这些关键词的翻译候选（translation candidates），最后依据翻译候选或者神经概率分布（neural distribution）生成摘要词汇。

本文插图
图3 融合翻译模式的跨语言自动摘要方法示意图
在“翻译”步骤，研究人员尝试并对比了三种策略：“朴素（Naive）”、“平等（Equal）”和“适应（Adapt）” 。 “朴素”策略直接将概率双语词典中的翻译概率作为词汇的双语翻译概率，而“平等”策略则是将概率双语词典中的翻译概率进行平均处理， “适应”策略将源端的上下文语义信息用于动态地挑选合适的翻译候选。