海量日志分析咋处理( 二 )
架构图
■网友
日志易可以实现【实时】的海量日志的可视化统一管理及搜索分析。
可接收处理多类型日志数据:网络设备日志、Web日志、应用日志、服务器日志······
看楼主的需求,应该是在降噪处理(数据过滤)、实时、可视化。
目前已经有上百家大客户在选择使用日志易,这应该可以成为你的解决方案。
■网友
我是看到海量日志分析进来的 可能有点文不对题。
之前在国内某(聊天)厂处理每天3600条的日志,需要对日志即席的进行检索与分析,所以介绍下腾讯hermes(现在的延云YDB)。
排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。
有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次,每年巨头都会在排序上进行巨大的投入,可见排序速度的高低有多么重要!但是对于大多数企业来说,动辄上亿的硬件投入,实在划不来、甚至远远超出了企业的项目预算。相比大数据领域的暴力排序有没有一种更廉价的实现方式?
在这里,我们为大家介绍一种新的廉价排序方法,我们称为blockSort。
500G的数据300亿条数据,只使用4台 16核,32G内存,千兆网卡的虚拟机即可实现 2~15秒的 排序 (可以全表排序,也可以与任意筛选条件筛选后排序)。
一、基本的思想是这样的,如下图所示:
1.将数据按照大小预先划分好,如划分成 大、中、小三个块(block)。
2.如果想找最大的数据,那么只需要在最大的那个块里去找就可以了。
3.这个快还是有层级结构的,如果每个块内的数据量很多,可以到下面的子快内进行继续查找,可以分多个层进行排序。
4.采用这种方法,一个亿万亿级别的数据(如long类型),最坏最坏的极端情况也就进行2048次文件seek就可以筛选到结果。
怎么样,原理是不是非常简单,这样数据量即使特别多,那么排序与查找的次数是固定的。
二、这个是我们之前基于spark做的性能测试,供大家参考
在排序上,YDB具有绝对优势,无论是全表,还是基于任意条件组合过滤,基本秒杀Spark任何格式。
测试结果(时间单位为秒)
三、当然除了排序上,我们的其他性能也是远远高于spark,这块大家也可以了解一下
1、与Spark txt在检索上的性能对比测试。
注释:备忘。下图的这块,其实没什么特别的,只不过由于YDB本身索引的特性,不想spark那样暴力,才会导致在扫描上的性能远高于spark,性能高百倍不足为奇。
下图为ydb相对于spark txt提升的倍数
2、这些是与 Parquet 格式对比(单位为秒)
推荐阅读
- |新款领克01竞争力分析:推荐入门版 价格门槛提高2.9万元
- 写下我关于做数据分析专员的困惑和各位的建议是
- 汽车知识|五菱凯捷vs吉利嘉际,客观分析5点,谁更适合日常家用?怎么选?
- 高考|提前了解,快人一步!2021年“新高考”数学试卷结构&题型分析
- 达内集团管理培训生
- 纯电|2020年37批新能源车免车购税目录分析
- |东风悦达起亚智跑部分车型出现发动机异响拉缸的潜在缺陷风险分析
- 汽车|起售价6.99万元,详细分析长安欧尚X5是否值得购买
- |2020年10月汽车行业网络关注度分析月度报告
- 百度面试无结果中,请大神帮忙分析分析?