海量日志分析咋处理( 二 )


架构图

■网友
日志易可以实现【实时】的海量日志的可视化统一管理及搜索分析。
可接收处理多类型日志数据:网络设备日志、Web日志、应用日志、服务器日志······
看楼主的需求,应该是在降噪处理(数据过滤)、实时、可视化。
目前已经有上百家大客户在选择使用日志易,这应该可以成为你的解决方案。

海量日志分析咋处理


海量日志分析咋处理



■网友
我是看到海量日志分析进来的 可能有点文不对题。
之前在国内某(聊天)厂处理每天3600条的日志,需要对日志即席的进行检索与分析,所以介绍下腾讯hermes(现在的延云YDB)。
排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。
有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序上进行巨大的投入,可见排序速度的高低有多么重要!但是对于大多数企业来说,动辄上亿的硬件投入,实在划不来、甚至远远超出了企业的项目预算。相比大数据领域的暴力排序有没有一种更廉价的实现方式?
在这里,我们为大家介绍一种新的廉价排序方法,我们称为blockSort。
500G的数据300亿条数据,只使用4台 16核,32G内存,千兆网卡的虚拟机即可实现 2~15秒的 排序 (可以全表排序,也可以与任意筛选条件筛选后排序)。
一、基本的思想是这样的,如下图所示:
1.将数据按照大小预先划分好,如划分成 大、中、小三个块(block)。
2.如果想找最大的数据,那么只需要在最大的那个块里去找就可以了。
3.这个快还是有层级结构的,如果每个块内的数据量很多,可以到下面的子快内进行继续查找,可以分多个层进行排序。
4.采用这种方法,一个亿万亿级别的数据(如long类型),最坏最坏的极端情况也就进行2048次文件seek就可以筛选到结果。
海量日志分析咋处理

怎么样,原理是不是非常简单,这样数据量即使特别多,那么排序与查找的次数是固定的。
二、这个是我们之前基于spark做的性能测试,供大家参考
在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀Spark任何格式。
海量日志分析咋处理

测试结果(时间单位为秒)
三、当然除了排序上,我们的其他性能也是远远高于spark,这块大家也可以了解一下
1、与Spark txt在检索上的性能对比测试。
注释:备忘。下图的这块,其实没什么特别的,只不过由于YDB本身索引的特性,不想spark那样暴力,才会导致在扫描上的性能远高于spark,性能高百倍不足为奇。
海量日志分析咋处理

下图为ydb相对于spark txt提升的倍数
2、这些是与 Parquet 格式对比(单位为秒)


推荐阅读