腾讯信息流内容理解技术实践


腾讯信息流内容理解技术实践

文章插图
 
分享嘉宾:郭伟东 腾讯 高级研究员
文章整理:李传勇
内容来源:DataFunTalk
【腾讯信息流内容理解技术实践】出品社区:DataFun
注:欢迎转载,转载请留言 。
 
导读:目前信息流推荐中使用的内容理解技术,主要有两部分构成:1. 门户时代和搜索时代遗留的技术积累:分类、关键词以及知识图谱相关技术;2. 深度学习带来的技术福利:embedding 。但是分类对于兴趣点刻画太粗,实体又容易引起推荐多样性问题,而 embedding 技术又面临难以解释的问题 。这次主要介绍在信息流推荐中,腾讯是如何做内容理解克服上述问题的 。主要包括:
  • 项目背景
  • 兴趣图谱
  • 内容理解
  • 线上效果
项目背景
1. 内容理解技术演进
腾讯信息流内容理解技术实践

文章插图
 
① 门户时代:1995~2002年,主要代表公司:Yahoo、网易、搜狐、腾讯 。互联网初期,因为数据较少,因此需要一个内容聚合的地方,人们才能够快速的找到信息 。因此,门户通过 "内容类型" 对内容进行整理,然后以频道页形式满足用户需求 。因为数据少,初期由人工对新闻进行分类 。随着数据的增多,靠人工分类已经变得不现实,因此各大公司纷纷引入分类技术,自动化文本分类 。此后,文本分类技术发展迅速 。
② 搜索/社交时代:2003年~至今,主要代表公司:搜狗、腾讯、google、百度 。随着网络的普及,数据的数量和类型的丰富,门户网站已经不能够承载信息分发的任务 。于是,一种新的信息分发技术诞生——搜索 。搜索除了需要分类信息以外,还需要精确知道文章是 "关于什么的",关键词技术很好的解决了这个需求,于是也成为那个时期的研究热点 。但是关键词技术有一个问题没办法克服:实体歧义问题 ( 如李白,究竟用户是找诗人李白,还是王者荣耀英雄李白 ) 。2012年 Google 提出知识图谱概念,可以用于解决上述的实体歧义问题,实体链指的问题也有了比较大的进展 。
③ 智能时代:2012年~至今,主要代表公司:今日头条、出门问问等 。使用2012年来作为智能时代的开始,主要是这一年头条成立 。头条定义了一种新的信息分发形式——个性化推荐 。虽然个性化推荐技术早有研究,但是对于信息分发这个任务有不可或缺的推动作用 。
但是在信息推荐中,我们仍然在使用分类、关键词和实体等传统的内容理解方法,那到底在智能时代下是否需要新的内容理解方案呢?
2. 推荐和搜索的区别
腾讯信息流内容理解技术实践

文章插图
 
推荐和搜索非常相似,都是根据已有的输入,返回跟输入相关的文章,但是对于内容理解的要求区别较大,下面仔细分析下原因:
搜索是给定一个 query 后,预测 doc 被点击的概率进行排序 。大致的处理流程如下:首先对 query 分词,得到 < term, weight> 的一个列表 ( 去除停用词等不重要的词 ),然后根据每一个 term 拉倒排索引 document list 做召回,再对召回的所有文章取并集,最后做整体的排序 。注意:这里排序的条件是所有 term 的交集 ( 条件概率标红部分 ) 。
推荐是给定一个 user 后,预测 doc 被点击的概率进行排序 。大致的处理流程如下:首先查询 user 的用户画像,得到 < term, weight > 的一个兴趣点列表,然后根据每一个 term 拉倒排索引 document list 做召回,再对召回的所有文章取并集,最后做整体的排序 。注意:这里排序的条件跟搜索是不同的,排序的条件是 term 的并集 ( 条件概率标红部分 ) 。例如用户阅读了王宝强马蓉离婚的新闻,会把 "王宝强"、"马蓉" 作为两个兴趣点积累到用户画像中,而对新的文章排序时候,实际上已经丢失了 "王宝强" 和 "马蓉" 兴趣点是同一篇文章同时积累的这个信息 。
通过上述分析,我们可以得到这样的结论:搜索经过召回之后,排序有完整的上下文信息;但是在推荐中由于经过了用户画像,使用传统的内容理解方案时,排序会丢失用户阅读的上下文信息 。因此,推荐对于内容理解需要保留完整的上下文,即把 "王宝强马蓉离婚" 当做一个完整的兴趣点,而不仅仅像搜索一样分别保留 "王宝强" 和 "马蓉" 。


推荐阅读