语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020( 二 )



据我们所知 , 这是第一次使用KG增强的语义融合来解决对话系统和推荐系统的集成 。 我们的模型利用两个不同的KG分别增强单词和商品的语义 , 并统一它们的表示空间 。 在一个公共CRS数据集[2]上的大量实验证明了我们的方法在推荐和会话任务上的有效性 。
2
方法
语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

如图展示了电影推荐场景的模型总览 。 “SA” , “ KA”和“ CA”分别表示自注意力 , 基于KG的注意力和基于上下文的注意力 。
1、编码外部知识图谱 本文将对话系统和推荐系统中基本语义单元分别定义为word和item , 使用两个独立的知识图谱来增强两种语义单元的表达 。
1)编码面向word的知识图谱 本文使用图卷积神经网络[5](GCN)来捕获ConceptNet上节点之间的语义关系 。 ConceptNet将一个语义事实存储为一个三元组&lt, r, &gt , 其中
语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

其中是诸节点的表示 , 是各层的可学习的矩阵 , A是图对应的邻接矩阵 , D是一个对角度矩阵 。 通过堆叠多个卷积 , 信息可以沿着图结构一起传播 。 当算法终止时 , 每个word对应一个维的表示
2)编码面向item的知识图谱 本文使用R-GCN[6]学习DBpedia上item的表示 。 节点在层的表示通过如下公式计算:

语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

其中, 表示在关系下的邻居节点集合 ,和是可学习的转换矩阵 ,是正则化参数.
2、使用互信息最大化策略的知识图谱融合 为了弥合word与item的语义鸿沟 , 本文提出了使用MIM[7]相互地增强成对信号的数据表示 。 给出两个变量和 , 互信息(MI)被定义为:
语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

其中 是联合概率分布 和边缘概率分布的点积 的KL散度 。
通常MI是很难计算出的 , 于是MIM使用如下公式来最大化MI而不是计算准确数值:
其中 和 分别代表正样本的期望和负样本的期望 。是两类别分类器 。
对于一个共现在一个会话中的item-word pair &lt,&gt , 我们通过一个转换矩阵将他们的表示变得相近:
其中 是用于对齐语义空概念的转换矩阵 。 通过将公式5代入公式4 , 我们可以得到所有会话上的目标损失 , 并且通过优化算法将损失最小化 , 最终弥合word与item的语义鸿沟
为了提高性能和效率 , 我们为一个会话设置了一个 super token, 假设它可以代表所有上下文单词的语义 , 并且使用自注意力机制学习的表示:
语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

3、知识图谱增强的推荐模块 本文使用门控机制获得用户的偏好表示 :

语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

其中 是通过与公式6类似的自注意力机制在会话上下文上获得的的单个词向量 ,同理 。
在获得用户偏好后 , 我们可以计算每个商品被推荐给用户的概率 , 以此给商品排序、做出推荐:
为了学习参数 , 我们使用一个交叉熵损失:
语义|会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020
本文插图

其中是对话编号 , 是商品编号 , 是互信息最大化损失函数 , 是加权矩阵 。
4、知识图谱增强的回复生成模块 本文使用Transformer[8]作为编码器-解码器架构 , 并且对解码阶段进行改进 。 在自注意力子层后 , 我们使用了两个基于知识图谱的注意力层融合两个知识图谱的信息:


推荐阅读