运维常用的17款监控系统( 三 )


Big Sister对监控网络系统的IT管理员有所帮助 。当系统故障时,它会通知管理员,生成状态变化历史记录日志并显示各种系统性能数据 。
 
15. Open Falcon

运维常用的17款监控系统

文章插图
 
Open Falcon 是由小米开源的运维监控系统 。小米从互联网公司的一些需求出发,从各位SRE、SA、DEVS的使用经验和反馈出发,结合业界的一些大的互联网公司做监控,用监控的一些思考出发,设计开发了小米的监控系统:open-falcon 。open-falcon的目标是做最开放、最好用的互联网企业级监控产品 。
其特点是:
  • 强大灵活的数据采集:自动发现,支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)
  • 水平扩展能力:支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询
  • 高效率的告警策略管理:高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用
  • 人性化的告警设置:最大告警次数、告警级别、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期
  • 高效率的graph组件:单机支撑200万metric的上报、归档、存储(周期为1分钟)
  • 高效的历史数据query组件:采用rrdtool的数据归档策略,秒级返回上百个metric一年的历史数据
  • dashboard:多维度的数据展示,用户自定义Screen
  • 高可用:整个系统无核心单点,易运维,易部署,可水平扩展
  • 开发语言: 整个系统的后端,全部golang编写,portal和dashboard使用Python编写 。
  •  
 
16. Icinga
运维常用的17款监控系统

文章插图
 
Icinga 起初是 Nagios 的一个分支 。Icinga 2 则是做减法得来的,它还能提供分布式监控和多线程框架,这是 Nagios 或 Icinga 1 所不具备的 。你可以从 Nagios 迁移到 Icinga 1,然后再迁移到 Icinga 2 。
与 Nagios 一样,Icinga 几乎也能通吃所有设备,搭配 SNMP、定制插件和扩展使用效果更佳 。
Icinga 提供全局监控和警告框架,只是在 Web UI 上与 Nagios 有所不同 。
Icinga 有多款 Web UI,它与 Nagios 的不同主要是配置,用户通过 Web UI 就能搞定,省去了麻烦的配置文档 。对于那些在命令行之外管理配置的人来说,这是个重大利好 。
Icinga 融入了多款绘图和监控套件(如 PNP4Nagios、inGraph 和 Graphite),可视化性能绝对可靠 。此外,Icinga 还拥有扩展报告功能 。
 
17. Ntop
运维常用的17款监控系统

文章插图
 
Ntop 计划,也就是传说中的 Ntopng,已经陆陆续续开发了十年 。它是一款顶尖的网络流量监控工具,Web 图形用户界面简洁且顺滑 。它使用 C 语言编写且完全独立,你只需要运行配置,就能监控某个特定网络接口的单一进程,就这么简单 。
Ntop 提供了简单易懂的图形和表格来显示当前和过去的网络流量,包括协议、源、目的地以及特定交易的历史,甚至两端的主机 。此外,你还会发现广泛的网络利用率图表、实时地图和趋势,以及针对各种附加件(例如NetFlow和sFlow)的插件框架 。这里甚至还有专门嵌入到 Ntop 的硬件监控器 Nbox 。
Ntop 甚至用上了轻量级 Lua API 框架,通过脚本语言就能支持扩展 。Ntop 还可以将主机数据存储在 RRD 文件中,以支持持久的数据采集 。
Ntop 最便捷的用途就是现场流量检查 。当你发现自己的某个 Cacti PHP Weathermap 突然显示红色的网络链接集时,就意味着这些链接的利用率超过了 85%,但原因却不得而知 。只要切换到 Ntopng 程序来监控该网络段,就可以查看最高流量消耗者每分钟的报表,并立即获知到底哪个主机在占用流量 。
这种可视性算得上是无价之宝了,而且唾手可得 。从本质上来讲,你可以在被配置成交换机级别的任何端口运行 Ntopng,以便监控任何端口或者 VLAN 。




推荐阅读