|ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
本文插图
作者:舒意恒(南京大学硕士生 , 知识图谱方向)
编辑 | 丛末
1
背景
什么是知识图谱问答?
知识图谱(KG)是一个多关系图 , 其中包含数以百万计的实体 , 以及连接实体的关系 。 知识图谱问答(Question Answering over Knowledge Graph, KGQA)是利用知识图谱信息的一项研究领域 。 给定一个自然语言问题和一个知识图谱 , 通过分析问题和 KG 中包含的信息 , KGQA 系统尝试给出正确的答案 。
多跳知识图谱问答指的是 , 该问答系统需要通过知识图谱上的多条边执行推理 , 以获得正确答案 。
本文插图
一般而言 , 针对一个简单的事实类问题 , KGQA 尝试找到一个三元组来回答这一问题 。 具体而言 , KGQA 需要分析自然语言问题 , 将自然语言问题中的实体描述和关系描述分别链接到知识图谱中的实体和关系 。 如果知识图谱中存在三元组 , 则是潜在的答案 。 这一过程可以称作单跳问答 , 一个问题的查询通过找到独立的三元组完成 , 而没有涉及多个有关联的三元组 。
多跳知识图谱问答面临的挑战
知识图谱作为一种知识存储的形式 , 其中最重要的缺陷之一是它们通常都是不完整的 , 而这给 KGQA 提出了额外的挑战 , 尤其是多跳 KGQA 。 如上图所示 , 多跳 QA 需要一个长路径 , 而该路径上任意三元组的缺失都将导致真正的答案无法被搜索到 。 因此 , 采取某种方式预测知识图谱中缺失的链接 , 对于提升多跳 QA 的表现是有帮助的 。 当前缓解知识图谱不完整性的方法主要有:将 KG 与外部文本语料库结合 , 或者对知识图谱内的三元组进行补全等 。
链接预测
链接预测的任务即预测知识图谱中缺失的链接 , 以减缓知识图谱的稀疏性 。 知识图谱嵌入是一种常见的链接预测方法 , 它为知识图谱中的实体和关系学习高维向量表示 , 但作者发现它尚未应用于多跳 KGQA 中 。 作者首次将嵌入用于多跳 KGQA , 其目的在于充分利用嵌入方法在应对知识图谱稀疏性上的良好表现 , 增强模型的多跳推理能力 。
论文题目:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings
论文链接:https://arxiv.org/abs/1910.03262v1
2
技术简介
如下图所示 , 该文将其 KGQA 方法称为 EmbedKGQA 。 其中包含三个关键模块 。
- KG 嵌入模块:为 KG 中所有实体构建嵌入 。
- 问题嵌入模块:为问题找到嵌入 。
- 答案选择模块:减小候选答案实体的集合 , 并选择最终的答案 。
本文插图
KG 嵌入模块
作者直接选择了 ComplEx[1]作为嵌入模型 。 实体嵌入被用于学习头实体、问题和答案实体构成的三元组评分函数 。 作者没有在 KG 嵌入模块进行过多关注和额外设计 。
问题嵌入模块
该模块的目标是将一个自然语言问题 嵌入到一个固定维度的复向量。 使用复向量的原因是匹配 KG 嵌入的 ComplEx 方法 。 作者使用了现有方法 RoBERTa[2]将自然语言问题 嵌入到 768 维的向量中 , 其中包含 4 个全连接线性层 , 使用 ReLU 激活函数 。
给定一个自然语言问题, 一个查询实体, 和一个答案实体集合, 该模块学习问题嵌入以达到以下目标:
其中 ,是 ComplEx 的评分函数 ,是之前学习到的实体嵌入 。 对于每个问题 , 评分函数 通过所有候选答案实体 计算得到 。 但哪些实体可以被认为是候选答案实体 , 作者在此处并没有明确阐述 , 而是在答案选择模块中讲解了如何对候选答案实体进行修剪操作 。
推荐阅读
- 互联网|IBM再发力 联合IT巨头马衡达发布基于区块链的合约和数字版权管理平台
- Hudi|技术干货 | Uber基于Apache Hudi构建PB级数据湖实践
- 中年|基于芯片研发平台构建运维体系
- 雕像|华晨宇给他的粉丝分发了20000个基于区块链技术的雕像
- 区块链|华晨宇给他的粉丝分发了20000个基于区块链技术的雕像
- 行业互联网|浪潮亮相开源行业盛会 基于开源创新构筑云数智融合平台
- 自动驾驶|和而不同的黑科技——DiPilot,一切基于安全
- 美股研究社|马斯克回应德国判定称Autopilot基于航空术语而命名
- AMD|康佳特COM Express 模块: 基于AMD锐龙嵌入式R1000处理器
- 美股研究社|谷歌将推出基于AMD安全加密虚拟化功能构建的机密虚拟机