通过Prometheus查询计算Kubernetes集群中的容器CPU、内存使用率等指标

Tags: prometheus  kubernetes 

目录

说明

Kubernetes的kubelet组件内置了cadvisor,将Node上容器的指标以Prometheus支持的格式展示,可以通过这些指标计算得到更多有用的数据。

Kubelet的Cadvisor指标获取

直接访问Kubelet的10255端口,可以读取以Prometheus支持的格式呈现的指标:

$ curl http://192.168.88.10:10255/metrics/cadvisor
# HELP cadvisor_version_info A metric with a constant '1' value labeled by kernel version, OS version, docker version, cadvisor version & cadvisor revision.
# TYPE cadvisor_version_info gauge
cadvisor_version_info{cadvisorRevision="",cadvisorVersion="",dockerVersion="17.05.0-ce",kernelVersion="3.10.0-693.11.6.el7.x86_64",osVersion="CentOS Linux 7 (Core)"} 1
# HELP container_cpu_load_average_10s Value of container cpu load average over the last 10 seconds.
# TYPE container_cpu_load_average_10s gauge
container_cpu_load_average_10s{container_name="",id="/",image="",name="",namespace="",pod_name=""} 1
container_cpu_load_average_10s{container_name="POD",id="/kubepods.slice/kubepods-besteffort.slice/kubepods-besteffort-pod1a666636_a687_11e8_9cc4_525400160f15.slice/docker-e433276784317535e206d33e8e703a7360de86402c8b3e0b335e0d8071edde72.scope",image="registry.aliyuncs.com/archon/pause-amd64:3.0",name="k8s_POD_prometheus-node-exporter-4mck8_default_1a666636-a687-11e8-9cc4-525400160f15_1",namespace="default",pod_name="prometheus-node-exporter-4mck8"} 0
...

在Prometheus的配置文件中,配置了相关的Target之后,这些指标就可以从Prometheus中查询到。见:新型监控告警工具prometheus(普罗米修斯)入门使用(附视频讲解)

容器CPU使用率的计算

man top手册中找到了CPU使用率的定义:

1. %CPU  --  CPU Usage
  The task's share of the elapsed CPU time since the last screen update, expressed as a percentage of total CPU time.

  In a true SMP environment, if a process is multi-threaded and top is not operating in Threads mode, amounts greater
  than 100% may be reported.  You toggle Threads mode with the `H' inter-active command.

  Also for multi-processor environments, if Irix mode is Off, top will operate in Solaris mode where a task's cpu usage
  will be divided by the total number of CPUs.  You toggle Irix/Solaris modes with the `I' interactive command.

即在过去的一段时间里进程占用的CPU时间与CPU总时间的比率,如果有多个CPU或者多核,需要将每个CPU的时间相加。

kubelet中的cadvisor采集的指标与含义,见:Monitoring cAdvisor with Prometheus

其中有一项是:

container_cpu_usage_seconds_total 	Counter 	Cumulative cpu time consumed 	seconds

container_cpu_usage_seconds_total是container累计使用的CPU时间,用它除以CPU的总时间,就得到了容器的CPU使用率:

先计算出容器的CPU占用时间,因为Node上的CPU有多个,需要将容器在每个CPU上占用的时间累加起来:

sum(
   delta(
       container_cpu_usage_seconds_total
           {container_name="webshell",pod_name="webshell-rc-8wjhv"}[1m]
   )
) 

然后计算CPU的总时间,这里的CPU数量是容器分配到CPU数量,公式如下:

sum(
    container_spec_cpu_quota
        {container_name="webshell",pod_name="webshell-rc-8wjhv"}
) / 1000 * 60

container_spec_cpu_quota是容器的CPU配额,它的值是:为容器指定的CPU个数*100000。

将上面两个公式的结果相除,就得到了容器的CPU使用率:

sum(
   delta(
       container_cpu_usage_seconds_total
           {container_name="webshell",pod_name="webshell-rc-8wjhv"}[1m]
   )
) 
/ 
( sum(
    container_spec_cpu_quota
        {container_name="webshell",pod_name="webshell-rc-8wjhv"}
  ) / 1000 * 60
)

写成一行就是:

sum(delta(container_cpu_usage_seconds_total{container_name="webshell",pod_name="webshell-rc-8wjhv"}[1m])) / (sum(container_spec_cpu_quota{container_name="webshell",pod_name="webshell-rc-8wjhv"}) /100000 * 60)

上面使用delta()计算增量,算的是1m中内的时间变化,用rate()直接计算比率更好:

sum(rate(container_cpu_usage_seconds_total{container_name="webshell",pod_name="webshell-rc-8wjhv"}[1m])) / (sum(container_spec_cpu_quota{container_name="webshell",pod_name="webshell-rc-8wjhv"}/100000))

如果要同时计算所有容器的CPU使用率:

(sum(rate(container_cpu_usage_seconds_total{container_name!="",pod_name!=""}[1m])) by(cluster,namespace,container_name,pod_name))/(sum(container_spec_cpu_quota{container_name!="",pod_name!=""}) by(cluster,namespace,container_name,pod_name) /100000)*100

容器内存使用率的计算

容器内存使用率的计算就简单多了,直接用CPU使用量除以CPU配额即可:

container_memory_rss{container_name="webshell",pod_name="webshell-rc-8wjhv"}
/
container_spec_memory_limit_bytes{container_name="webshell",pod_name="webshell-rc-8wjhv"}

计算Node CPU的空闲率

avg(rate(node_cpu_seconds_total{mode="idle"}[1m])) by (cluster,instance,nodename) < 0.1

参考

  1. 新型监控告警工具prometheus(普罗米修斯)入门使用(附视频讲解)
  2. Monitoring cAdvisor with Prometheus

kubernetes

  1. Prometheus 采集 Kubernetes 中的 pod 的 metrics 的方法
  2. kubernetes configmap 热加载,inotifywatch 监测文件触发热更新
  3. kubernetes 百变定制: 支持的扩展点和扩展方法(api/crd/plugin...)
  4. kubernetes 调度组件 kube-scheduler 1.16.3 源代码阅读指引
  5. kubernetes 代码中的 k8s.io 是怎么回事?
  6. 旌旗招展,向网格而行!
  7. 《不一样的 双11 技术,阿里巴巴经济体云原生实践》阅读笔记
  8. kubernetes ingress-nginx 启用 upstream 长连接,需要注意,否则容易 502
  9. ingress-nginx 的限速功能在 nginx.conf 中的对应配置
  10. kubernetes 中的容器设置透明代理,自动在 HTTP 请求头中注入 Pod 信息
  11. kubernetes ingress-nginx 的测试代码(单元测试+e2e测试)
  12. kubernetes ingress-nginx http 请求复制功能与 nginx mirror 的行为差异
  13. kubernetes 基于 openresty 的 ingress-nginx 的状态和配置查询
  14. Kubernetes ingress-nginx 0.25 源代码走读笔记
  15. kubernetes ingress-nginx 的金丝雀(canary)/灰度发布功能的使用方法
  16. kubernetes code-generator 用法: 生成 kubernetes-style 的 api 和 client 代码
  17. kubernetes 操作命令 kubectl 在 shell 中的自动补全配置
  18. flannel ip 地址段扩容方法
  19. kubernetes 组件 kube-proxy 的 IPVS 功能的使用
  20. lxcfs 是什么? 怎样通过 lxcfs 在容器内显示容器的 CPU、内存状态
  21. kubernetes initializer 功能的使用方法: 在 Pod 等 Resource 落地前进行修改
  22. kubernetes 版本特性: 新特性支持版本和组件兼容版本
  23. kubernetes API 与 Operator: 不为人知的开发者战争(完整篇)
  24. kubernetes 1.12 从零开始(七): kubernetes开发资源
  25. kubernetes 1.12 从零开始(六): 从代码编译到自动部署
  26. kubernetes 网络方案 Flannel 的学习笔记
  27. kubernetes 1.12 从零开始(五): 自己动手部署 kubernetes
  28. kubernetes 1.12 从零开始(四): 必须先讲一下基本概念
  29. kubernetes 1.12 从零开始(三): 用 kubeadm 部署多节点集群
  30. kubernetes 1.12 从零开始(二): 用 minikube 部署开发测试环境
  31. kubernetes 1.12 从零开始(一): 部署环境准备
  32. kubernetes 1.12 从零开始(零): 遇到的问题与解决方法
  33. kubernetes 1.12 从零开始(初): 课程介绍与官方文档汇总
  34. 通过Prometheus查询计算Kubernetes集群中的容器CPU、内存使用率等指标
  35. 使用 grafana 和 prometheus 监控 kubernetes 集群状态
  36. 一些比较有意思的Kubernetes周边产品
  37. Borg论文阅读笔记
  38. kubelet下载pod镜像时,docker口令文件的查找顺序
  39. kubernetes 的 Client Libraries 的使用
  40. kubernetes的网络隔离networkpolicy
  41. kube-router的源码走读
  42. 使用calico的ipip模式解决k8s的跨网段通信
  43. kubernetes的调试方法
  44. kubernetes 与 calico 的衔接过程
  45. 怎样理解 kubernetes 以及微服务?
  46. kubernetes中部署有状态的复杂分布式系统
  47. kubernetes的apiserver的启动过程
  48. kubernetes的api定义与装载
  49. kubernetes的federation部署,跨区Service
  50. kubernetes的编译、打包、发布
  51. kubernetes的第三方包的使用
  52. kubernetes的Storage的实现
  53. kubernetes 的 Apiserver 的 storage 使用
  54. kubernetes的Controller-manager的工作过程
  55. kubernetes的Client端Cache
  56. kubernetes 的 Apiserver 的工作过程
  57. kubernetes的CNI插件初始化与Pod网络设置
  58. kubernetes的Pod变更过程
  59. kubernetes的kubelet的工作过程
  60. kuberntes 的 Cmdline 实现
  61. kubernetes的Pod内挂载的Service Account的使用方法
  62. kubernetes的社区资源与项目参与方式
  63. kubernetes的Kube-proxy的转发规则分析
  64. kubernetes的基本操作
  65. kubernetes在CentOS上的集群部署
  66. kubernetes在CentOS上的All In One部署
  67. 怎样选择集群管理系统?

prometheus

  1. Victoria Metrics源码: 水平扩展实现,查询拆分与时序数据打散写入
  2. Prometheus 采集 Kubernetes 中的 pod 的 metrics 的方法
  3. Prometheus 水平扩展方案(三): Prometheus 与 Victoria Metrics 的 API
  4. Prometheus 水平扩展方案(二): Victoria Metrics 学习、试用
  5. Prometheus 水平扩展方案(一): 监控数据的转储、聚合、查询
  6. Prometheus的HTTP API的Go语言封装client_golang的使用
  7. curl能访问的url,通过blackbox-exporter进行探测时,返回404
  8. 使用Prometheus SDK输出Prometheus格式的Metrics
  9. 通过Prometheus查询计算Kubernetes集群中的容器CPU、内存使用率等指标
  10. 使用 grafana 和 prometheus 监控 kubernetes 集群状态
  11. 通过consul、confd,动态为prometheus添加监控目标和告警规则
  12. 【视频】新型监控告警工具prometheus(普罗米修斯)入门使用(附视频讲解)
  13. Prometheus(普罗米修斯)使用过程中遇到的问题
  14. 监控系统prometheus的使用

推荐阅读

Copyright @2011-2019 All rights reserved. 转载请添加原文连接,合作请加微信lijiaocn或者发送邮件: [email protected],备注网站合作

友情链接:  李佶澳的博客  小鸟笔记  软件手册  编程手册  运营手册  网络课程  收藏文章  发现知识星球  百度搜索 谷歌搜索