海量日志分析咋处理( 二 ) 【大数据干货

架构图

■网友
日志易可以实现【实时】的海量日志的可视化统一管理及搜索分析。
可接收处理多类型日志数据：网络设备日志、Web日志、应用日志、服务器日志······
看楼主的需求，应该是在降噪处理（数据过滤）、实时、可视化。
目前已经有上百家大客户在选择使用日志易，这应该可以成为你的解决方案。

■网友
我是看到海量日志分析进来的可能有点文不对题。
之前在国内某（聊天）厂处理每天3600条的日志，需要对日志即席的进行检索与分析，所以介绍下腾讯hermes（现在的延云YDB）。
排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。
有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序上进行巨大的投入，可见排序速度的高低有多么重要！但是对于大多数企业来说，动辄上亿的硬件投入，实在划不来、甚至远远超出了企业的项目预算。相比大数据领域的暴力排序有没有一种更廉价的实现方式？
在这里，我们为大家介绍一种新的廉价排序方法，我们称为blockSort。
500G的数据300亿条数据，只使用4台 16核，32G内存，千兆网卡的虚拟机即可实现 2~15秒的排序（可以全表排序，也可以与任意筛选条件筛选后排序）。
一、基本的思想是这样的，如下图所示：
1.将数据按照大小预先划分好，如划分成大、中、小三个块(block)。
2.如果想找最大的数据，那么只需要在最大的那个块里去找就可以了。
3.这个快还是有层级结构的，如果每个块内的数据量很多，可以到下面的子快内进行继续查找，可以分多个层进行排序。
4.采用这种方法，一个亿万亿级别的数据（如long类型），最坏最坏的极端情况也就进行2048次文件seek就可以筛选到结果。

怎么样，原理是不是非常简单，这样数据量即使特别多，那么排序与查找的次数是固定的。
二、这个是我们之前基于spark做的性能测试，供大家参考
在排序上，YDB具有绝对优势，无论是全表，还是基于任意条件组合过滤，基本秒杀Spark任何格式。

测试结果(时间单位为秒)
三、当然除了排序上，我们的其他性能也是远远高于spark，这块大家也可以了解一下
1、与Spark txt在检索上的性能对比测试。
注释：备忘。下图的这块，其实没什么特别的，只不过由于YDB本身索引的特性，不想spark那样暴力，才会导致在扫描上的性能远高于spark，性能高百倍不足为奇。

下图为ydb相对于spark txt提升的倍数
2、这些是与 Parquet 格式对比（单位为秒）

海量日志分析咋处理( 二 )

推荐阅读

管辖法院@岳阳法院交出行政诉讼集中管辖改革一周年答卷

北京市的市中心是北京房价最高的区域吗

dead是什么意思？

『愤怒的咩师兄』又一坦克崛起，同级完虐对手！，王者荣耀更新

熊猫娱乐|叶玉卿全家出海钓鱼，大女儿秀火辣身材，心情不受破产影响

书桌|定制书桌设计如何打造地更完美？

史上第一个病毒叫什么历史第一恐怖的病毒是什么

如果黑洞靠近地球如果一厘米大的黑洞接近地球会怎样,视频

▲可以把个人的兴趣变成工作来做吗？

青岛已采样27.7万余份进行核酸检测

人民日报|香港舆论：美方打“香港牌”图谋绝不会得逞

杨婉琴细说教育|现在结婚都这么喝么？，搞笑GIF：大哥

谷歌用算力爆了一篇论文，解答有关无限宽度网络的一切

穿搭|邓家佳气场全开，一袭黑色斜肩鱼尾礼服优雅性感，S型曲线太迷人

「DNF心情屋」力量破1.1W，打桩伤害1.6W亿！，DNF：旭旭宝宝红眼100级装备达成

微雅丽育儿经|二胎时代：儿子名字反过来是女儿？明星田亮的教育方式值得借鉴

陕西一高校送学生油泼辣子月饼-陕西高校食堂做特色风味月饼赠师生

过道：火车卧铺旅行，为何头朝过道休息？乘务员专业解释

代驾怎么叫女司机;微信如何叫代驾微信怎么叫代驾？

投资|高毅、涌金、保银投资！私募巨头们美股买了啥？