kubernetes的Kube-proxy的转发规则分析

Tags: kubernetes 

目录

概要

kube-proxy是kubernetes中设置转发规则的组件,通过iptables修改报文的流向。

以下是在一台kubernetes node节点上观察到的结果,kube-proxy是一个独立的组件,下面的观察结果适用于运行在其它地方的kube-proxy。

$kube-proxy --version
kubernetes v1.5.2

通过“iptables -L -t [iptables表名]”可以看到,kube-proxy只修改了filter和nat表。

五个检查点:

              INPUT                 OUPUT
                .                     |
               /_\           +--------+
                |           _|_
                +--------+  \ /
                         |   ' 
                         Router --------|> FORWARD
                         .   |                |
                        /_\  +--------+       |
                         |           _|_     _|_
               +---------+           \ /     \ /
               |                      '       ' 
    PKT ---> PREROUTING              POSTROUTING  ---> PKT

filter表

filter表中Chain:

$iptables -t filter -L
Chain INPUT (policy ACCEPT)
target     prot opt source               destination
KUBE-FIREWALL  all  --  anywhere         anywhere

Chain FORWARD (policy ACCEPT)
target     prot opt source               destination
DOCKER-ISOLATION  all  --  anywhere      anywhere
DOCKER     all  --  anywhere             anywhere
ACCEPT     all  --  anywhere             anywhere        ctstate RELATED,ESTABLISHED
ACCEPT     all  --  anywhere             anywhere
ACCEPT     all  --  anywhere             anywhere

Chain OUTPUT (policy ACCEPT)
target     prot opt source               destination
KUBE-FIREWALL  all  --  anywhere         anywhere
KUBE-SERVICES  all  --  anywhere         anywhere        /* kubernetes service portals */

Chain DOCKER (1 references)
target     prot opt source               destination

Chain DOCKER-ISOLATION (1 references)
target     prot opt source               destination
RETURN     all  --  anywhere             anywhere

Chain KUBE-FIREWALL (2 references)
target     prot opt source               destination
DROP       all  --  anywhere             anywhere        /* kubernetes firewall for dropping marked packets */ mark match 0x8000/0x8000

Chain KUBE-SERVICES (1 references)
target     prot opt source               destination
REJECT     tcp  --  anywhere             10.254.153.61   /* first/webshell:http has no endpoints */ tcp dpt:http reject-with icmp-port-unreachable
REJECT     tcp  --  anywhere             10.254.153.61   /* first/webshell:ssh has no endpoints */ tcp dpt:ssh reject-with icmp-port-unreachable

可以看到kube-proxy只设置了filter表中INPUT chain和OUTPUT chain,增加了KUBE-FIREWALL和KUBE-SERVICES两个规则链。

所有的出报文都要经过KUBE-SERVICES,如果一个Service没有对应的endpoint,则拒绝将报文发出:

$./kubectl.sh get services -o wide -n first
NAME       CLUSTER-IP      EXTERNAL-IP   PORT(S)         AGE       SELECTOR
webshell   10.254.153.61   <none>        80/TCP,22/TCP   3d        name=webshell,type=pod

注意在KUBE-FIREWALL中,所有标记了0x8000的包都会被丢弃,标记动作可以发生在其它的表中。

nat表

nat表中设置的规则比较多:

1. (inbound)在PREROUTING阶段,将所有报文转发到KUBE-SERVICES
2. (outbound)在OUTPUT阶段,将所有报文转发到KUBE-SERVICES
3. (outbound)在POSTROUTING阶段,将所有报文转发到KUBE-POSTROUTING

Chain KUBE-SERVICES

target     prot opt source               destination
KUBE-SVC-QMBTMOHBQS5DJKOG  tcp  --  anywhere    10.254.153.61   /* first/webshell:http cluster IP */ tcp dpt:http
KUBE-SVC-TRP5S22NJPNCPLI2  tcp  --  anywhere    10.254.153.61   /* first/webshell:ssh cluster IP */ tcp dpt:ssh
KUBE-SVC-XGLOHA7QRQ3V22RZ  tcp  --  anywhere    172.16.60.36    /* kube-system/kubernetes-dashboard: cluster IP */ tcp dpt:http
KUBE-SVC-NPX46M4PTMTKRN6Y  tcp  --  anywhere    10.254.0.1      /* default/kubernetes:https cluster IP */ tcp dpt:https
KUBE-NODEPORTS  all  --  anywhere             anywhere          /* kubernetes service nodeports; NOTE: this must be the last rule in this chain */ ADDRTYPE match dst-type LOCAL

可以看到,每个Service的每个服务端口都会在Chain KUBE-SERVICES中有一条对应的规则,发送到clusterIP的报文,将会转发到对应的Service的规则链,没有命中ClusterIP的,转发到KUBE-NODEPORTS。

Chain KUBE-SVC-XGLOHA7QRQ3V22RZ (2 references)

target     prot opt source               destination
KUBE-SEP-IIXSAVQWZXISB6RA  all  --  anywhere      anywhere             /* kube-system/kubernetes-dashboard: */

而每一个SERVICE,又将报文提交到了各自的KUBE-SEP-XXX。

Chain KUBE-SEP-IIXSAVQWZXISB6RA (1 references)

target     prot opt source               destination
KUBE-MARK-MASQ  all  --  172.16.167.1    anywhere        /* kube-system/kubernetes-dashboard: */
DNAT            tcp  --  anywhere        anywhere        /* kube-system/kubernetes-dashboard: */ tcp to:172.16.167.1:9090

最后在KUBE-SEP-XX中完整了最终的DNAT,将目的地址转换成了POD的IP和端口。

这里的KUBE-MARK-MASQ为报文打上了标记,表示这个报文是由kubernetes管理的,Kuberntes将会对它进行NAT转换。

Chain KUBE-MARK-MASQ (3 references)
target     prot opt source               destination
MARK       all  --  anywhere             anywhere             MARK or 0x4000

Chain KUBE-NODEPORTS (1 references)

target     prot opt source               destination
KUBE-MARK-MASQ  tcp  --  anywhere             anywhere       /* kube-system/kubernetes-dashboard: */ tcp dpt:31275
KUBE-SVC-XGLOHA7QRQ3V22RZ  tcp  --  anywhere  anywhere       /* kube-system/kubernetes-dashboard: */ tcp dpt:31275

可以看到,KUBE-NODEPORT中,根据目的端口,将报文转发到对应的Service的规则链,然后就如同在“Chain KUBE-SERVICES”中的过程,将报文转发到了对应的POD。

只有发送到被kubernetes占用的端口的报文才会进入KUBE-MARK-MASQ打上标记,并转发到对应的服务规则链。

例如这里分配给SERVICE的端口是31275,其它端口的包不由kuberentes管理.

Chain KUBE-POSTROUTING (1 references)

target     prot opt source               destination
MASQUERADE  all  --  anywhere             anywhere             /* kubernetes service traffic requiring SNAT */ mark match 0x4000/0x4000

这里表示k8s管理的报文(也就是被标记了0x4000的报文),在离开Node(物理机)的时候需要进行SNAT转换。

也就是POD发出的报文,

报文处理流程图

下面的图中,没有画出KUBE-FIREWALL,KUBE-FIREWALL发生在filter表的INPUT和OUTPUT Chain中,下面的图中(FW)表示带有KUBE-FIREWALL。

([email protected]): 表示nat表中的KUBE-SERVICES chain。

([email protected],nat): 表示在filter和nat中各有一个名为KUBE-SERVICES的chain。

发送到Node的报文的处理过程

报文先经过nat.prerouting,然后经过filter.input。

                                                   ([email protected])              
                                                     +->SVC1
                ([email protected])                  |           ([email protected])
            +--->命中ClusterIP   --------------------+->SVC2 -->SEP1,Mark0x0400,DNAT
PREROUTING  |                              ^         |                 |
    PKT  -->|                              |         +->SVC3           |
            |                              |                           |
            +--->未命中ClusterIP --->命中服务端口                      |       
                                  |                                    |       
                                  +->未命中服务端口                    |       
                                           |                           |       
                                           v                           v
                                         +-----------------------------+
                                         |         INPUT(FW)           |--> END
                                         +-----------------------------+

Node发出的报文的处理过程

                                      ([email protected])              
               (KUBE-SERVICES         +->SVC1
  OUTPUT(FW)   @filter,nat)           |             ([email protected])
   PKT  ----->命中ClusterIP ----------+->SVC2 -->SEP1,Mark0x0400,DNAT
          |                           |                 |
          |                           +->SVC3           |
          |                                             |
          |                                             |
          |              +-----------------+            | 
          +------------> |   POSTROUTING   | <----------+
                         +--------+--------+
                                  |         
                                  v         
                          match 0x0400,[email protected]                 
                                  |
                                  v
                                 NIC 

kubernetes

  1. Prometheus 采集 Kubernetes 中的 pod 的 metrics 的方法
  2. kubernetes configmap 热加载,inotifywatch 监测文件触发热更新
  3. kubernetes 百变定制: 支持的扩展点和扩展方法(api/crd/plugin...)
  4. kubernetes 调度组件 kube-scheduler 1.16.3 源代码阅读指引
  5. kubernetes 代码中的 k8s.io 是怎么回事?
  6. 旌旗招展,向网格而行!
  7. 《不一样的 双11 技术,阿里巴巴经济体云原生实践》阅读笔记
  8. kubernetes ingress-nginx 启用 upstream 长连接,需要注意,否则容易 502
  9. ingress-nginx 的限速功能在 nginx.conf 中的对应配置
  10. kubernetes 中的容器设置透明代理,自动在 HTTP 请求头中注入 Pod 信息
  11. kubernetes ingress-nginx 的测试代码(单元测试+e2e测试)
  12. kubernetes ingress-nginx http 请求复制功能与 nginx mirror 的行为差异
  13. kubernetes 基于 openresty 的 ingress-nginx 的状态和配置查询
  14. Kubernetes ingress-nginx 0.25 源代码走读笔记
  15. kubernetes ingress-nginx 的金丝雀(canary)/灰度发布功能的使用方法
  16. kubernetes code-generator 用法: 生成 kubernetes-style 的 api 和 client 代码
  17. kubernetes 操作命令 kubectl 在 shell 中的自动补全配置
  18. flannel ip 地址段扩容方法
  19. kubernetes 组件 kube-proxy 的 IPVS 功能的使用
  20. lxcfs 是什么? 怎样通过 lxcfs 在容器内显示容器的 CPU、内存状态
  21. kubernetes initializer 功能的使用方法: 在 Pod 等 Resource 落地前进行修改
  22. kubernetes 版本特性: 新特性支持版本和组件兼容版本
  23. kubernetes API 与 Operator: 不为人知的开发者战争(完整篇)
  24. kubernetes 1.12 从零开始(七): kubernetes开发资源
  25. kubernetes 1.12 从零开始(六): 从代码编译到自动部署
  26. kubernetes 网络方案 Flannel 的学习笔记
  27. kubernetes 1.12 从零开始(五): 自己动手部署 kubernetes
  28. kubernetes 1.12 从零开始(四): 必须先讲一下基本概念
  29. kubernetes 1.12 从零开始(三): 用 kubeadm 部署多节点集群
  30. kubernetes 1.12 从零开始(二): 用 minikube 部署开发测试环境
  31. kubernetes 1.12 从零开始(一): 部署环境准备
  32. kubernetes 1.12 从零开始(零): 遇到的问题与解决方法
  33. kubernetes 1.12 从零开始(初): 课程介绍与官方文档汇总
  34. 通过Prometheus查询计算Kubernetes集群中的容器CPU、内存使用率等指标
  35. 使用 grafana 和 prometheus 监控 kubernetes 集群状态
  36. 一些比较有意思的Kubernetes周边产品
  37. Borg论文阅读笔记
  38. kubelet下载pod镜像时,docker口令文件的查找顺序
  39. kubernetes 的 Client Libraries 的使用
  40. kubernetes的网络隔离networkpolicy
  41. kube-router的源码走读
  42. 使用calico的ipip模式解决k8s的跨网段通信
  43. kubernetes的调试方法
  44. kubernetes 与 calico 的衔接过程
  45. 怎样理解 kubernetes 以及微服务?
  46. kubernetes中部署有状态的复杂分布式系统
  47. kubernetes的apiserver的启动过程
  48. kubernetes的api定义与装载
  49. kubernetes的federation部署,跨区Service
  50. kubernetes的编译、打包、发布
  51. kubernetes的第三方包的使用
  52. kubernetes的Storage的实现
  53. kubernetes 的 Apiserver 的 storage 使用
  54. kubernetes的Controller-manager的工作过程
  55. kubernetes的Client端Cache
  56. kubernetes 的 Apiserver 的工作过程
  57. kubernetes的CNI插件初始化与Pod网络设置
  58. kubernetes的Pod变更过程
  59. kubernetes的kubelet的工作过程
  60. kuberntes 的 Cmdline 实现
  61. kubernetes的Pod内挂载的Service Account的使用方法
  62. kubernetes的社区资源与项目参与方式
  63. kubernetes的Kube-proxy的转发规则分析
  64. kubernetes的基本操作
  65. kubernetes在CentOS上的集群部署
  66. kubernetes在CentOS上的All In One部署
  67. 怎样选择集群管理系统?

推荐阅读

Copyright @2011-2019 All rights reserved. 转载请添加原文连接,合作请加微信lijiaocn或者发送邮件: [email protected],备注网站合作

友情链接:  李佶澳的博客  小鸟笔记  软件手册  编程手册  运营手册  网络课程  收藏文章  发现知识星球  百度搜索 谷歌搜索