运维常用的17款监控系统( 三 ) _监控系统

Big Sister对监控网络系统的IT管理员有所帮助。当系统故障时，它会通知管理员，生成状态变化历史记录日志并显示各种系统性能数据。

15. Open Falcon

文章插图

Open Falcon 是由小米开源的运维监控系统。小米从互联网公司的一些需求出发，从各位SRE、SA、DEVS的使用经验和反馈出发，结合业界的一些大的互联网公司做监控，用监控的一些思考出发，设计开发了小米的监控系统：open-falcon 。open-falcon的目标是做最开放、最好用的互联网企业级监控产品。
其特点是：

强大灵活的数据采集：自动发现，支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like（timestamp、endpoint、metric、key-value tags）
水平扩展能力：支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询
高效率的告警策略管理：高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用
人性化的告警设置：最大告警次数、告警级别、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期
高效率的graph组件：单机支撑200万metric的上报、归档、存储（周期为1分钟）
高效的历史数据query组件：采用rrdtool的数据归档策略，秒级返回上百个metric一年的历史数据
dashboard：多维度的数据展示，用户自定义Screen
高可用：整个系统无核心单点，易运维，易部署，可水平扩展
开发语言：整个系统的后端，全部golang编写，portal和dashboard使用Python编写。

16. Icinga

文章插图

Icinga 起初是 Nagios 的一个分支。Icinga 2 则是做减法得来的，它还能提供分布式监控和多线程框架，这是 Nagios 或 Icinga 1 所不具备的。你可以从 Nagios 迁移到 Icinga 1，然后再迁移到 Icinga 2 。
与 Nagios 一样，Icinga 几乎也能通吃所有设备，搭配 SNMP、定制插件和扩展使用效果更佳。
Icinga 提供全局监控和警告框架，只是在 Web UI 上与 Nagios 有所不同。
Icinga 有多款 Web UI，它与 Nagios 的不同主要是配置，用户通过 Web UI 就能搞定，省去了麻烦的配置文档。对于那些在命令行之外管理配置的人来说，这是个重大利好。
Icinga 融入了多款绘图和监控套件（如 PNP4Nagios、inGraph 和 Graphite），可视化性能绝对可靠。此外，Icinga 还拥有扩展报告功能。

17. Ntop

文章插图

Ntop 计划，也就是传说中的 Ntopng，已经陆陆续续开发了十年。它是一款顶尖的网络流量监控工具，Web 图形用户界面简洁且顺滑。它使用 C 语言编写且完全独立，你只需要运行配置，就能监控某个特定网络接口的单一进程，就这么简单。
Ntop 提供了简单易懂的图形和表格来显示当前和过去的网络流量，包括协议、源、目的地以及特定交易的历史，甚至两端的主机。此外，你还会发现广泛的网络利用率图表、实时地图和趋势，以及针对各种附加件（例如NetFlow和sFlow）的插件框架。这里甚至还有专门嵌入到 Ntop 的硬件监控器 Nbox 。
Ntop 甚至用上了轻量级 Lua API 框架，通过脚本语言就能支持扩展。Ntop 还可以将主机数据存储在 RRD 文件中，以支持持久的数据采集。
Ntop 最便捷的用途就是现场流量检查。当你发现自己的某个 Cacti PHP Weathermap 突然显示红色的网络链接集时，就意味着这些链接的利用率超过了 85%，但原因却不得而知。只要切换到 Ntopng 程序来监控该网络段，就可以查看最高流量消耗者每分钟的报表，并立即获知到底哪个主机在占用流量。
这种可视性算得上是无价之宝了，而且唾手可得。从本质上来讲，你可以在被配置成交换机级别的任何端口运行 Ntopng，以便监控任何端口或者 VLAN 。