腾讯信息流内容理解技术实践 _信息流

文章插图

分享嘉宾：郭伟东腾讯高级研究员
文章整理：李传勇
内容来源：DataFunTalk
【腾讯信息流内容理解技术实践】出品社区：DataFun
注：欢迎转载，转载请留言。

导读：目前信息流推荐中使用的内容理解技术，主要有两部分构成：1. 门户时代和搜索时代遗留的技术积累：分类、关键词以及知识图谱相关技术；2. 深度学习带来的技术福利：embedding 。但是分类对于兴趣点刻画太粗，实体又容易引起推荐多样性问题，而 embedding 技术又面临难以解释的问题。这次主要介绍在信息流推荐中，腾讯是如何做内容理解克服上述问题的。主要包括：

项目背景
兴趣图谱
内容理解
线上效果

项目背景
1. 内容理解技术演进

文章插图

① 门户时代：1995~2002年，主要代表公司：Yahoo、网易、搜狐、腾讯。互联网初期，因为数据较少，因此需要一个内容聚合的地方，人们才能够快速的找到信息。因此，门户通过 "内容类型" 对内容进行整理，然后以频道页形式满足用户需求。因为数据少，初期由人工对新闻进行分类。随着数据的增多，靠人工分类已经变得不现实，因此各大公司纷纷引入分类技术，自动化文本分类。此后，文本分类技术发展迅速。
② 搜索/社交时代：2003年~至今，主要代表公司：搜狗、腾讯、google、百度。随着网络的普及，数据的数量和类型的丰富，门户网站已经不能够承载信息分发的任务。于是，一种新的信息分发技术诞生——搜索。搜索除了需要分类信息以外，还需要精确知道文章是 "关于什么的"，关键词技术很好的解决了这个需求，于是也成为那个时期的研究热点。但是关键词技术有一个问题没办法克服：实体歧义问题 ( 如李白，究竟用户是找诗人李白，还是王者荣耀英雄李白 ) 。2012年 Google 提出知识图谱概念，可以用于解决上述的实体歧义问题，实体链指的问题也有了比较大的进展。
③ 智能时代：2012年~至今，主要代表公司：今日头条、出门问问等。使用2012年来作为智能时代的开始，主要是这一年头条成立。头条定义了一种新的信息分发形式——个性化推荐。虽然个性化推荐技术早有研究，但是对于信息分发这个任务有不可或缺的推动作用。
但是在信息推荐中，我们仍然在使用分类、关键词和实体等传统的内容理解方法，那到底在智能时代下是否需要新的内容理解方案呢？
2. 推荐和搜索的区别

文章插图

推荐和搜索非常相似，都是根据已有的输入，返回跟输入相关的文章，但是对于内容理解的要求区别较大，下面仔细分析下原因：
搜索是给定一个 query 后，预测 doc 被点击的概率进行排序。大致的处理流程如下：首先对 query 分词，得到 < term, weight> 的一个列表 ( 去除停用词等不重要的词 )，然后根据每一个 term 拉倒排索引 document list 做召回，再对召回的所有文章取并集，最后做整体的排序。注意：这里排序的条件是所有 term 的交集 ( 条件概率标红部分 ) 。
推荐是给定一个 user 后，预测 doc 被点击的概率进行排序。大致的处理流程如下：首先查询 user 的用户画像，得到 < term, weight > 的一个兴趣点列表，然后根据每一个 term 拉倒排索引 document list 做召回，再对召回的所有文章取并集，最后做整体的排序。注意：这里排序的条件跟搜索是不同的，排序的条件是 term 的并集 ( 条件概率标红部分 ) 。例如用户阅读了王宝强马蓉离婚的新闻，会把 "王宝强"、"马蓉" 作为两个兴趣点积累到用户画像中，而对新的文章排序时候，实际上已经丢失了 "王宝强" 和 "马蓉" 兴趣点是同一篇文章同时积累的这个信息。
通过上述分析，我们可以得到这样的结论：搜索经过召回之后，排序有完整的上下文信息；但是在推荐中由于经过了用户画像，使用传统的内容理解方案时，排序会丢失用户阅读的上下文信息。因此，推荐对于内容理解需要保留完整的上下文，即把 "王宝强马蓉离婚" 当做一个完整的兴趣点，而不仅仅像搜索一样分别保留 "王宝强" 和 "马蓉" 。