盘点准时播|2020京东入选论文深度解析,京东AI写作能力超过人类表现,AAAI

人工智能技术在电商领域 , 有着丰富的应用场景 。 应用场景是数据入口 , 数据通过技术得到提炼 , 反过来又作用于技术 , 二者相辅相成 。
在刚刚结束的京东618 , 京东AI智能写作生成的营销文案内容在曝光点击率、进商详转化率等方面其实都做到了优于人工创作的营销内容 。 目前京东AI智能写作产品已覆盖京东零售超过2000个商品品类 , 在图文内容营销上 , 智能写作产品撰写的导购素材相比于人工撰写内容点击转化率超过40% 。
据了解 , 京东AI智能写作产品源自于自然语言理解与知识图谱技术 , 并应用到了京东零售【发现好货】频道中 。 通过AI智能写作创作的数十万商品营销图文素材 , 不仅填补了商品更新与达人写作内容更新之间的巨大缺口 , 也提升了内容频道的内容丰富性 。
接下来让我们通过解读京东AI研究院入选AAAI2020的论文来一起来看看 , AI是如何做到针对不同群体打造不同营销策略及不同风格的营销文案 , 从而提高营销转化率的 。
自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务 , 其提出于20世纪50年代 。 自动文摘任务的目标是对于给定的文本 , 获得一段包含了其中最重要信息的简化文本 。 常用的自动文摘方法包括抽取式自动文摘(ExtractiveSummarization)和生成式自动文摘(AbstractiveSummarization) 。 抽取式自动文摘通过提取给定文本中已存在的关键词、短语或句子组成摘要;生成式自动文摘通过对给定文本建立抽象的语意表示 , 利用自然语言生成技术 , 生成摘要 。
本文所介绍的是基于关键词指导的生成式句子摘要方法 , 该方法融合了抽取式自动文摘和生成式自动文摘 , 在Gigaword句子摘要数据集上与对比模型相比 , 取得了更好的性能 。
盘点准时播|2020京东入选论文深度解析,京东AI写作能力超过人类表现,AAAI
文章图片
1、生成式句子摘要
生成式句子摘要(AbstractiveSentenceSummarization)任务的输入是一个较长的句子 , 输出是该输入句子的简化短句 。
我们注意到 , 输入句子中的一些重要词语(即关键词)为摘要的生成提供了指导线索 。 另一方面 , 当人们在为输入句子创作摘要时 , 也往往会先找出输入句子中的关键词 , 然后组织语言将这些关键词串接起来 。 最终 , 生成内容不仅会涵盖这些关键词 , 还会确保其流畅性和语法正确性 。 我们认为 , 相较于纯粹的抽取式自动文摘和生成式自动文摘 , 基于关键词指导的生成式自动文摘更接近于人们创作摘要时的习惯 。
盘点准时播|2020京东入选论文深度解析,京东AI写作能力超过人类表现,AAAI
文章图片
我们举一个简单的句子摘要的例子 。 如图1所示 , 我们可以大致将输入句子和参考摘要的重叠的词(停用词除外)作为关键词 , 这些重叠的词语覆盖了输入句子的要点 。 例如 , 我们通过关键词“世界各国领导人”“关闭”和“切尔诺贝利” , 可以获取输入句子的主旨信息 , 即“世界各国领导人呼吁关闭切尔诺贝利” , 这与实际的参考摘要“世界各国领导人敦促支持切尔诺贝利核电站关闭计划”是相吻合的 。 这种现象在句子摘要任务中很常见:在Gigaword句子摘要数据集上 , 参考摘要中的词语超过半数会出现在输入句子中 。
2、模型概述
句子摘要任务的输入为一个较长的句子 , 输出是一个简短的文本摘要 。 我们的动机是 , 输入文本中的关键词可以为自动文摘系统提供重要的指导信息 。 首先 , 我们将输入文本和参考摘要之间重叠的词(停用词除外)作为Ground-Truth关键词 , 通过多任务学习的方式 , 共享同一个编码器对输入文本进行编码 , 训练关键词提取模型和摘要生成模型 , 其中关键词提取模型是基于编码器隐层状态的序列标注模型 , 摘要生成模型是基于关键词指导的端到端模型 。 关键词提取模型和摘要生成模型均训练收敛后 , 我们利用训练好的关键词提取模型对训练集中的文本抽取关键词 , 利用抽取到的关键词对摘要生成模型进行微调 。 测试时 , 我们先利用关键词提取模型对测试集中的文本抽取关键词 , 最终利用抽取到的关键词和原始测试文本生成摘要 。


推荐阅读