summingbird和storm-yarn 他们的优缺点是啥,分别适用于哪些场景

summingbird只知道是一个lambda架构的项目,看过一些文档,感觉适用范围不是很广,但如果你需求和它的适用场景很一致,则用起来应该会很爽。我理解summingbird适用的场景是:先用流式计算短期数据,但流式计算因为模型限制,为了时效性经常会牺牲一定程度的正确性的保证,过段时间数据全了,再用批量进行补正,然后再由一些query机处理用户请求,将批量的输出与流式的输出merge成最终的结果发送给用户。storm是一个比较通用的流式计算项目,用起来会更通用一些,但是如果你需求是我上面描述的summing bird适用的那个场景,你可能一些事儿可能需要维护一套批量的MR程序,维护一套流式的Storm程序,然后再维护一套查询服务了,而且很可能其中不少地方存在着重复的逻辑,同一套逻辑可能需要在几个系统中出现。


    推荐阅读