|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军


机器之心发布
机器之心编辑部
全球人工智能学术竞赛 DSTC 是对话系统技术领域的顶级赛事 。 2020 年度第九届国际对话技术竞赛 DSTC9 共设有 4 个赛道 (Track-1~Track-4) , 主办方包括 Facebook、亚马逊、微软、卡内基梅隆大学、清华大学等 , 参与者广泛覆盖了企业和高校的参赛团队 。
近期 DSTC9 官方陆续公布各个赛道排名 。 百度参与了 DSTC9 前 3 个赛道中 4 项任务的角逐 , 并在最终的榜单中拔得头名 , 成绩令人瞩目 。 这些赛道全面涵盖了开放域闲聊、知识对话、任务型对话等关键问题 。 据悉 , 百度在这些任务中所使用的核心技术 , 均基于其最近开源的开放域对话模型 PLATO-2 。
PLATO-2 是基于隐空间技术的大规模开放域对话模型 , 参数规模高达 16 亿 , 可就开放域话题深度畅聊 , 在中英文效果上 , 已全面超越 Google Meena、Facebook Blender、微软小冰等先进模型 。 PLATO-2 采用了课程学习进行训练 , 其过程包括两个阶段:第一阶段 , 基于简化的 “一对一” 映射 , 训练得到基础的回复生成模型;第二阶段包含生成 - 评估两个模型 , 针对开放域对话的 “一对多” 问题 , 通过引入离散隐变量进行建模 , 训练得到更高质量的回复生成模型 , 同时训练评估模型 , 从多个候选中选择出最合适的回复 。 这种框架具有很强的通用能力 , 在预训练各个阶段所获得的模型可广泛支持多种类型的对话系统 。 这次 DSTC9 的比赛结果就充分展示了 PLATO-2 在对话领域强大的通用能力 。
|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军
本文插图

接下来 , 我们一起了解 DSTC9 中的 4 个任务以及基于 PLATO-2 的解决方案 。
Track-1: Beyond Domain APIs: Task-oriented Conversational Modeling with Unstructured Knowledge Access
经典的任务型对话系统在回复用户时 , 依赖于查询结构化的数据库信息 , 但是在实际应用场景下 , 用户询问的问题会很多样 , 数据库常常缺乏相关信息 。 相比之下 , 非结构化知识信息 , 像 FAQ 等涵盖的范围更广 , 可以辅助系统回复用户 。 针对这个问题 , 该赛道共设置了 3 个级联的子任务:
1. 判断当前对话上文是否需要使用外部非结构化的知识;
2. 选取跟当前对话上文最匹配的 k 条非结构化知识;
3. 根据选取的非结构化知识 , 进行系统回复生成 。
参赛的系统需要完成 3 个级联的子任务 , 百度在最终的人工评估中 , 排名第一 。 在该赛道中 , 百度基于预训练模型进一步训练了前两个子任务的分类和排序模型 , 从而实现精准的知识选择 , 并得以辅助 PLATO-2 模型生成知识增强的回复 。 如下图示例 , 系统根据对话上文 , 从大规模知识库中选出合适的知识 , 并合理的利用知识生成了高质量的回复 , 从该实例中可以看出 , PLATO-2 模型已经具备了一定的推理能力 。
|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军
本文插图

|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军
本文插图
该赛道的人工评估综合考虑了回复中知识的准确度以及回复与上文的合适度 , 除了参赛系统 , 测试集人工标注的 ground-truth 也一起参与了评估 。 结果显示 , 百度取得了 4.39 的分数 , 排名第一 , 跟人工标注结果仅有 0.13 的细微差距 。 这一结果表明 , 在此类极具挑战性的任务型对话场景下 , 模型能够以相对低廉的成本、较快的响应速度 , 为用户提供高质量的回复 。
Track-2: Multi-domain Task-oriented Dialog Challenge II
和 Track-1 类似 , Track-2 也是面向任务型的对话系统 , 但没有使用额外的非结构化知识 。 传统的任务型对话系统大多是模块化的 , 各个模块 NLU、DST、Policy、NLG 独立建模 , 且整个流程中涉及较多的人工干预 。 最新的技术开始探索端到端的任务型对话系统 , 模型可根据对话上文直接生成回复 。 该赛道共有 2 个独立的子任务:


推荐阅读