头条号进阶手段,头条号消重技巧( 二 )


原理上说,不同内容的身份证是不一样的,而相同内容的身份证是一样的 。并且,相似的内容会具有相似的身份证 。这是头条号的系统对内容进行消重的基础 。

头条号进阶手段,头条号消重技巧

文章插图
每一篇文章都有属于自己的「身份证」,用来与平台中的其他文章进行比对 。通常有以下几种不同的消重机制:
1. 内容消重与「关键项」
在计算一篇内容的「身份证」之后,基本上有两种情况 。其一,这是一个系统中独一无二的身份证,换言之,同样的内容在系统里只有这样一篇 。对于内容发布者来说,这恐怕是最理想的情况了,这种情况下,在向读者推荐相同内容时,系统除了推荐这一篇外,别无选择 。
第二种就要复杂得多了,同时也是非常常见的情况:系统里存在多篇不同内容,都具有同一张身份证 。这时,系统就需要从这些相同内容中选择一篇“关键项”向用户推荐 。进行选择的最终目的是保证向用户推荐的内容来自更权威、更有可能是原创来源的头条号 。
如何判断哪个头条号更权威、更有可能是原创呢?两篇相同的内容,在内容本身之外可能存在很多的差异,这些差异就是判断的关键,具体的计算标准是非常多的,其中最重要的一些包括:
来源头条号是否开通「原创」标记;
发布时间;
来源的权威性和在网络上被引用的次数 。
举例来说,假如「央视新闻」通过头条号平台在5月19日上午发布了一篇内容,「门头沟新闻」的头条号在5月20日上午转发了同样一篇内容,两者都没有标记原创,那么:
首先,根据文本分析,这两篇内容会被计算出一个相同的「信息指纹」;
接着,「央视新闻」是比较权威的新闻报道媒体,而且,「央视新闻」的内容发布时间更早,因此,是权威、原创来源的可能性就远远大于「门头沟新闻」;
那么,「央视新闻」所发布的同一篇内容,就会被认定是这两篇内容中的关键项,继而向用户推荐 。
那么,假如说,同样的内容,5月19日先由「门头沟新闻」的头条号发布,5月20日再出现在「央视新闻」的头条号上,系统会如何判定呢?这就比较复杂了,但是综合看来,系统选择最佳内容来源的可能性非常大 。
头条号进阶手段,头条号消重技巧

文章插图
有一种例外的情况是,某篇内容被头条号利用「原创」功能,标记了「原创」,那么在这种情况下,系统会有很大的几率把这篇内容选择为「关键项」,无论其他因素的比较结果如何(尽管如此,「原创」头条号应该尽量谨慎地使用这个功能,一旦被举报滥用原创,查实后会被永久取消申明原创的资格) 。
一旦系统发现了可能对某篇内容感兴趣的用户正在刷新今日头条客户端,那么系统会自动把具有同样「信息指纹」的内容中,经过挑选最优的一篇推荐到用户的信息流 。剩下具有相同「信息指纹」的内容,就几乎不可能获得推荐了 。
这就是基于内容的消重规则,这解释了为什么许多非原创的内容无法在今日头条获得推荐量的原因 。
2.其他一些「消重」的规则
除了内容消重的规则外,头条号平台上实际上还存在这一些针对内容之外的消重规则 。
标题和预览图片的消重 。
原理与内容消重相似,只不过是只比较标题以及预览图片的「信息指纹」 。
之所以要对具有相同的标题或者预览图片的内容进行消重(哪怕它们的内容并不相同),这是因为,假如用户没有点击内容详情页,这看上去就是系统把两篇一样的内容重复推荐给了用户!可想而知这样的浏览体验是很糟糕的,况且,很少有人愿意连续点击几篇看上去一模一样的内容,因此这样的推荐也很少起效果 。
针对相似主题的消重 。
你肯定对这样的景象不陌生:每当有某个社会热点事件或者话题出现的时候,媒体、自媒体、KOL们一拥而上,竞相报道事件细节或者发表观点,让你的微博、朋友圈被有关这件事的种种内容“刷屏” 。
追逐热点,是媒体、自媒体很本能的一种行为模式,但是对于用户来说,需要的其实并不是反复看到相同的信息,如果有足够优质的报道或者观点的话,其实看有限的几条就够了 。
机器为避免在同一时间段用户看到太多同一事件的文章,就会启动对「相似主题」的消重 。
不难想到,对于主题的消重原理和对内容的消重其实原理是一样的,如果能对文章中全部的关键词进行统计并计算信息指纹,当然也可以对其中部分与话题相关的关键词进行统计并计算信息指纹 。


推荐阅读