请问一下微博和百度贴吧的热门话题排行榜是怎样生成的
对于实时性要求不那么高的,比如小时级的延迟,直接用hadoop跑分布式计算任务就可以了,估计你之前没接触过这块,可以学习一下。实效性再高的,可以考虑用storm来处理。如果还需要进行分词操作,计算量会大一些。但我看微博有这些热词条,都是微博引导用户添加的,比如##圈起来的,就是起到人工分词作用。他们在做统计时,直接取出来用就可以了,计算效率自然就更高了。
推荐阅读
- 银行高管的薪酬结构图表最新的,请问在哪里可以收集
- 在上海陆家嘴附近工作,请问去哪边租房会比较好
- 坐标合肥,请问在哪里能捕捉到程序员这种生物他们大都出现在哪里呢
- 孕妇到了预产期,小孩还没有入盆,请问是该等下去还是直接剖腹产
- 新浪微博创新基金投资了哪些团队
- 微博目前已经支持文本,图片,位置分享,为啥没有语音和视频呢微博的pm肯定想过这两种微博形态,但迟迟不做的原因到底是啥。是语音和视频不符合产
- 想做手机网游代充,请问要去哪里找货源
- 建议|育婴师给出这几点建议,来了解一下小孩发烧咳嗽怎么办
- 车祸违驾|为什么交警在查车时,会用手摸一下车尾,你知道是什么意思吗?
- 有哪些做短视频的自媒体推荐