请问一下微博和百度贴吧的热门话题排行榜是怎样生成的

对于实时性要求不那么高的,比如小时级的延迟,直接用hadoop跑分布式计算任务就可以了,估计你之前没接触过这块,可以学习一下。实效性再高的,可以考虑用storm来处理。如果还需要进行分词操作,计算量会大一些。但我看微博有这些热词条,都是微博引导用户添加的,比如##圈起来的,就是起到人工分词作用。他们在做统计时,直接取出来用就可以了,计算效率自然就更高了。


    推荐阅读