K8S pod内存告警分析

背景:目前prometheus 给pod的内存告警阀值设置的85%,由于JVM 设置最高申请内存为pod limit 的75%,通过arthas-boot查看到堆内存和元空间占用内存之和跟prometheus告警值不同 。
一、排查步骤:1、prometheus 告警使用参数使用container_memory_rss值进行告警
- alert: Pod内存使用率expr: |sum(container_memory_rss{image!=""}) by(pod, namespace) /sum(container_spec_memory_limit_bytes{image!=""}) by(pod, namespace) * 100 != +inf > 85for: 5mlabels:severity: warningannotations:summary: "命名空间: {{ $labels.namespace }} | Pod名称: {{ $labels.pod }} 内存使用大于85% (当前值: {{ $value }})"2、找到pod运行node节点[root@pro-k8s-master ~]# kubectl -n msApp get pod -o wide|grep mayimayi-center-9d5d588c5-d7sgd1/1Running07d10.100.235.43k8s-node1<none><none>mayi-center-9d5d588c5-mzd9p1/1Running07d10.100.6.41k8s-node2<none><none>3、通过Docker state 查看容器资源【K8S pod内存告警分析】[root@k8s-node1 ~]# docker ps |grep mayi-center-9d5d588c5-d7sgd [root@pro-node1 ~]# docker ps |grep mayi-center-9d5d588c5-d7sgd b6b3733024c2192.168.0.45/middleground-business-center/pro_mayi-center"sh -c 'JAVA $JAVA_O…"7 days agoUp 7 daysk8s_mayi-center_mayi-center-9d5d588c5-d7sgd_msapp_eac4e708-bd0a-483c-b5d4-734f95c9f1c7_05770fe14e7aaregistry.cn-hangzhou.aliyuncs.com/google_containers/pause:3.1"/pause"7 days agoUp 7 daysk8s_POD_mayi-center-9d5d588c5-d7sgd_msapp_eac4e708-bd0a-483c-b5d4-734f95c9f1c7_0[root@k8s-node1 ~]#docker state b6b3733024c2CONTAINER IDNAMECPU %MEM USAGE / LIMITMEM %NET I/OBLOCK I/OPIDSb6b3733024c2k8s_mayi-center_mayi-center-9d5d588c5-d7sgd_msapp_eac4e708-bd0a-483c-b5d4-734f95c9f1c7_04.31%1.788GiB / 2GiB89.40%0B / 0B1.52MB / 137MB1324、通过top -p 查看容器内存情况[root@pro-k8s-node1 ~]# top -p 794890PID USERPRNIVIRTRESSHR S%CPU %MEMTIME+ COMMAND794890 root200 74830841.8g15448 S6.72.9 392:48.42 java5、通过ps查看[root@pro-k8s-node1 ~]# ps -ef|grep mayiroot277280 2573110 10:33 pts/000:00:00 grep --color=auto mayiroot794890 7948713 Sep08 ?06:32:39 java -XX:+UseContainerSupport .....mayi-center ..... -jar /app.jar[root@pro-k8s-node1 ~]# ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' | grep 794890279183 grepgrep --color=auto 7948900.0960 112712 10:35 root0794890 javajava -XX:+UseContainerSuppo3.8 1883224 7483084 Sep08 root06、查看jvm内存通过arthas-boot 查看堆内存和非堆内存
二、查看结果1、通过top查看到容器内对应java进程占用内存为1.8G,跟prometheus几乎一致
2、通过ps 查看到容器内对应java进程占用内存为1.8G+,跟prometheus几乎一致
3、通过docker state 查看到容器内存查看内存内存为1.8G+,跟prometheus几乎一致
4、通过arthas-boot查看到jvm堆内存和非堆内存之和为1.6G+ 。
三、结论由于通过prometheus pod内存告警和实际jvm查看到的内存不同带来的疑问,初步怀疑是jvm本身占用了部分内存 。




    推荐阅读