海量日志分析咋处理( 四 )



■网友
如果只是监控用的,可以直接搭建一个ELK平台。如果日志业务非常重视,而且公司未来很多都要集成上面,那的确可以自己开发一套日志分析系统,可控性强。
之前也设计、开发过一个大型日志分析系统,日志采集的话你可以使用flume或者Logstach等。
真正有瓶颈的应该是后端如何处理海量数据,消费速度,是否引起堆积等?
采用storm流处理方式,还是批量入库方式?这个根据实际场景进行权衡
日志的统计规则梳理?网站数据如何采集?架构的可靠性?
都需要设计清楚在动手

■网友
『比如我要过滤掉性能最慢的15%的噪点数据,岂不是要保留每条数据,数据量=PV是很大的』是的,data is data,为了支持灵活全面的分析,最好把所有的数据都保留下来。至于你说的数据量大,那是存储的问题。请从三方面来看待海量数据分析:1.如何收集日志2.如何存储日志3.如何分析日志
■网友
说到数据采集分析,很多产品都不错,这个上面可以参考看看https://platform.neusoft.com/

■网友
百度指数可以随时统计到流量,搜数可以为你随时爬取后台数据!


推荐阅读