中科院之声|试试让机器自己生成摘要?丨智言智语
编者按: 智显未来 , 洞见新知 。 中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏 , 为你介绍人工智能相关知识与故事 , 从最新成果到背后趣闻 , 带你徜徉AI空间 , 看人工智能如何唤醒万物 , 让世界变得更美好。
本文插图
【中科院之声|试试让机器自己生成摘要?丨智言智语】
本文插图
本文插图
跨语言自动摘要是一项对源语言文本核心信息进行内容归纳 , 以目标语言的形式组织成摘要的任务 , 可广泛应用于内容推荐(为用户推荐外语新闻)和跨境电商(辅助用户决策)等场景 , 让大众体验技术的魅力 。
此前 , 由于源文档与其相应的跨语言参考摘要的数据对(也称作:平行数据)的缺失 , 大多数已有跨语言自动摘要方法只能采用“先翻译后摘要”或者“先摘要后翻译”等管道式方法实现 。 这类方法将跨语言自动摘要割裂为单语言自动摘要和机器翻译两个步骤 , 前一步骤的误差直接影响后一步骤的性能 , 导致误差传播 , 进而制约摘要质量的提升 。
本文插图
图1 管道式跨语言自动摘要方法示意图
为缓解此问题 , 研究人员开始尝试构建跨语言自动摘要平行数据 , 并在此基础上开展基于深度学习的跨语言自动摘要方法(或称神经跨语言自动摘要)研究 。
跨语言自动摘要任务与负责摘要的单语言自动摘要任务和与负责翻译的机器翻译任务均密切相关:
- 单语言自动摘要和跨语言自动摘要既有共性 , 也有区别 , 共性在于两者具有一致的目标——获得原文的核心内容;区别在于最终呈现的语言形式与原文语言一致与否 。
- 对于机器翻译和跨语言自动摘要而言 , 从信息压缩的角度来看 , 机器翻译可以被视为一种特殊的跨语言自动摘要 , 即信息压缩比为1:1的跨语言自动摘要 。
针对此问题 , 中科院自动化所自然语言处理团队提出一种融合翻译模式的跨语言自动摘要方法 , 有效缓解已有方法的缺陷 , 相关成果发表于第五十八届国际计算语言学年会(ACL-2020) 。
本文插图
图2 “翻译”现象的示例
该工作受跨语言自动摘要中存在的目标端词汇可通过翻译源端某些词汇得到 , 这一“翻译”现象的启发 , 提出将跨语言自动摘要分解为三个步骤:聚焦(attend)、翻译(translate)和归纳(summarize) , 整体框架如图3所示 。 具体而言 , 该方法首先通过注意力机制对原文包含的重要内容词进行聚焦 , 并得到这些关键词的翻译候选(translation candidates) , 最后依据翻译候选或者神经概率分布(neural distribution)生成摘要词汇 。
本文插图
图3 融合翻译模式的跨语言自动摘要方法示意图
在“翻译”步骤 , 研究人员尝试并对比了三种策略:“朴素(Naive)”、“平等(Equal)”和“适应(Adapt)” 。 “朴素”策略直接将概率双语词典中的翻译概率作为词汇的双语翻译概率 , 而“平等”策略则是将概率双语词典中的翻译概率进行平均处理 , “适应”策略将源端的上下文语义信息用于动态地挑选合适的翻译候选 。
推荐阅读
- 工作组|中科院派出专项工作组赴合肥,调查“90多人集体离职”事件
- 手机使用技巧|4G信号满格网络却很慢?试试这个方法,简单管用
- |凭啥别人的社群转化率那么高?试试这三种套路你也可以
- 中年|中国可能已经找到成为5nm芯片制造领导者的新方法,中科院立大功
- 行业互联网,AI人工智能|图灵奖获得者,中科院院士姚期智:AI应用要取得下一站突破,基础理论必须先突破
- 人工智能|<p>人工智能会取代人类吗?7月10日,听图灵奖得主、中科院院士探讨人与机器和谐共生之道</p>
- |快来试试加速numpy的矩阵运算
- |外太空是什么味道?或许你可以试试这款 NASA 为宇航员研发的香水
- 博科园|中科院:开发出等离子体结构色生成的新方法,应用范围非常广!
- HIFIMAN之声|始于颜值,情定音质—DEVA平板振膜头戴耳机体验