产业气象站|| KDD 2020,会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合


产业气象站|| KDD 2020,会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合
文章图片
产业气象站|| KDD 2020,会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合
文章图片
论文链接:https://arxiv.org/abs/2007.04032
会话推荐系统(conversationrecommendersystem,CRS)旨在通过交互式的会话给用户推荐高质量的商品 。 通常CRS由寻求商品的user和推荐商品的system组成 , 通过交互式的会话 , user实时表达自己的偏好 , system理解user的意图并推荐商品 。 目前会话推荐系统有两个问题需要解决 。 首先 , 对话数据本身缺少足够的上下文信息 , 无法准确地理解用户的偏好(传统的推荐任务会有历史交互序列或者用户属性 , 但是该场景下只有对话的记录) 。 其次 , 自然语言的表示和商品级的用户偏好之间存在语义鸿沟(在user的话语“CanyourecommendmeascarymovielikeJaws”中 , 用户偏好反映在单词”scary“和电影实体”Jaws“上 , 但这两类信息天然存在语义的差异) 。
为了解决上述问题 , 本文提出了模型KG-basedSemanticFusionapproach(KGSF) , 通过互信息最大化的多知识图谱语义融合技术 , 不仅打通了对话中不同类型信息的语义鸿沟 , 同时针对性地设计了下游的模型 , 以充分发挥两个知识图谱的作用 , 在会话推荐系统的两个任务上均取得了state-of-the-art的效果 。
1
引言
会话推荐系统是近年来寻求通过与用户的对话提供高质量推荐的新兴研究课题 。 就方法而言 , CRS需要在推荐模块和对话模块之间无缝集成 。 一方面 , 对话模块要理解用户的意图 , 并生成合适的回复 。 另一方面 , 推荐模块学习用户偏好 , 并基于上下文推荐高质量的商品 。 为了开发有效的CRS , 学界已经提出了数种集成这两个模块的解决方案 , 包括基于半结构化用户查询的信念跟踪器[1]和用于模块选择的开关解码器[2] 。
产业气象站|| KDD 2020,会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合
文章图片
虽然这些研究在一定程度上提高了CRS的性能 , 但仍有两个主要问题有待解决 。 首先 , 会话主要由几句话组成 , 缺乏足够的上下文信息 , 无法准确理解用户的偏好 。 如上表所示 , 一个用户正在寻找类似于“ParanormalActivity(2007)”的恐怖电影 , 其中用两个短句子描述了他/她的偏好 。 为了获取用户的内部信息 , 我们需要充分利用上下文信息并对其建模(e.g.理解单词“scary”和电影“ParanormalActivity(2007)”背后的语义) 。 显然 , 单凭对话文本很难获得这样的事实信息 。 第二 , 对话内容用自然语言表示 , 而实际用户偏好则反映在商品或实体上(例如 , 演员和电影类型) 。 这两种数据信号之间存在天然的语义差异 。 我们需要一种有效的语义融合方法来理解或生成对话内容 。 如上表所示 , 如果不能拟合语义上的鸿沟 , 就无法生成解释推荐的文本(e.g.“thrillermoviewithgoodplot”) 。
为了丰富对话上下文信息 , 我们使用知识图谱提供外部知识 。 由于上下文信息包含自然语言词汇和商品两类数据 , 所以使用面向单词(word)的知识图谱(KG)和面向商品(item)的知识图谱 , 分别强化词汇的知识和商品的知识 。 ConceptNet[3]作为面向word的KG , 提供了word间的关系 , 诸如每个单词的同义词 , 反义词和共现单词 。 DBpedia[4]作为面向item的KG , 提供了item之间的关系 , 描述有关item属性的结构化事实 。 但是两个KG之间仍然存在着语义鸿沟 , 对KG数据的利用可能会受到限制 。
我们首先运用图神经网络分别学习两个知识图谱的节点表示 , 然后使用MIM弥合两个知识图谱的语义鸿沟 。 我们核心的想法是让共现在一个会话中的word和item的表示更相似 , 使用这种策略可以对齐两个语义空间下的数据表示 。 在语义对齐的基础上 , 本文进一步利用了知识图谱强化后的的推荐模块来提供精准的推荐 , 并利用知识图谱强化后的对话组件来帮助在会话文本中生成信息量丰富的关键字或实体 。


推荐阅读