科技报道|可视化监控大型集群,这一个工具就够了

许多企业使用Kubernetes来快速发布新功能并提高服务的可靠性 。 Rancher使团队能够减少管理其云原生工作负载的操作成本——但获得这些环境的持续可见性可能是一个挑战 。
在这篇文章中 , 我们将探讨如何利用Rancher内置支持的Prometheus和Grafana快速开始监控编排工作负载 。 然后 , 我们将向你展示如何将Datadog与Rancher集成 , 通过丰富的可视化、算法告警和其他功能 , 帮助你获得对这些临时环境更深入的可见性 。
Kubernetes监控所面临的挑战
Kubernetes集群本质上是复杂和动态的 。 容器以极快的速度启动和关闭:在对数千家组织的超过15亿个容器进行调查时 , Datadog发现 , 编排容器的周转速度(一天)是未编排容器的两倍(两天) 。
在这种快节奏的环境中 , 监控你的应用程序和基础设施比以往任何时候都重要 。 Rancher内置支持开源监控工具(如Prometheus和Grafana) , 允许你从Kubernetes集群中跟踪基本的健康和资源指标 。
Prometheus按照预设的时间间隔从Kubernetes集群收集指标 。 虽然Prometheus没有可视化选项 , 但你可以使用Grafana内置的仪表板来显示健康和资源指标的总体情况 , 例如你的pods的CPU使用情况 。
然而 , 一些开源解决方案并不是为了监控大型、动态Kubernetes集群而设计的 。 此外 , Prometheus要求用户学习PromQL(这是一种专门的查询语言)以分析和汇总他们的数据 。
虽然Prometheus和Grafana可以为你的集群提供一定程度的洞察力 , 但它们不能让你看到全貌 。 例如 , 你需要连接到其中一个Rancher支持的日志解决方案 , 以访问你环境中的日志 。 而为了排除代码级问题 , 你还需要部署一个应用程序性能监控解决方案 。
最终 , 为了充分可视化你的编排集群 , 你需要在一个平台上监控所有这些数据源——指标、跟踪和日志 。 通过向整个企业的团队提供详细的、可操作的数据 , 一个全面的监控解决方案可以帮助减少检测和解决的平均时间(MTTD和MTTR) 。
科技报道|可视化监控大型集群,这一个工具就够了
Datadog Agent:自动发现和自动伸缩服务
【科技报道|可视化监控大型集群,这一个工具就够了】为了获得Rancher解决方案中每一层的持续可见性 , 你需要一个专门用于实时跟踪云原生环境的监控解决方案 。 Datadog Agent是一款轻量级的开源软件 , 它可以从你的容器和主机中收集指标、跟踪和日志 , 并将它们转发到你的账户 , 以便进行可视化、分析和告警 。
由于Kubernetes部署处于不断变化的状态 , 因此无法手动跟踪哪些工作负载在哪些节点上运行 , 或者你的容器在哪里运行 。 为此 , Datadog Agent使用Autodiscovery来检测容器何时启动或关闭 , 并自动开始收集你的容器和它们正在运行的服务的数据 , 如etcd和Consul 。
Kubernetes内置的自动弹性伸缩功能可以根据需求(如CPU使用量激增)自动增加或减少工作负载 , 从而帮助提高服务的可靠性 。 自动伸缩还可以通过调整基础设施的规模来帮助管理成本 。
Datadog扩展了弹性伸缩这一功能 , 使你能够根据已经在Datadog中监控的任何指标(包括自定义指标)自动伸缩Kubernetes工作负载 。 这对于根据需求的波动来扩展集群是非常有用的 , 特别是在“双十一”这样的关键业务时期 。 假设你的公司是一家零售商 , 拥有繁忙的在线业务 。 当销售正在起飞时 , 你的Kubernetes工作负载可以根据作为活动指标的自定义指标(如结账数量)进行自动伸缩 , 以确保流畅的购物体验 。 有关使用Datadog自动伸缩Kubernetes工作负载的更多细节 , 请查看以下文章:


推荐阅读