Kubernetes集群node上的容器无法ping通外网: iptables snat规则缺失导致

Tags: kubernetes_problem 

目录

现象

Kubernetes集群的一个node出现问题,该问题node上所有的容器不能ping外网IP。

网络方案是flannel,kube-proxy使用ipvs的方式。

调查

选择集群外的一台机器作为目标机器,在问题机器的容器内ping目标机器,容器的IP是10.12.9.139,目标机器地址是10.10.64.58

在目标机器上抓包:

[[email protected] lxcfs]# tcpdump -n -i eth0 icmp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes
11:51:40.167453 IP 10.12.9.139 > 10.10.64.58: ICMP echo request, id 31744, seq 115, length 64
11:51:40.167560 IP 10.10.64.58 > 10.12.9.139: ICMP echo reply, id 31744, seq 115, length 64
11:51:41.167434 IP 10.12.9.139 > 10.10.64.58: ICMP echo request, id 31744, seq 116, length 64
11:51:41.167561 IP 10.10.64.58 > 10.12.9.139: ICMP echo reply, id 31744, seq 116, length 64
11:51:42.167453 IP 10.12.9.139 > 10.10.64.58: ICMP echo request, id 31744, seq 117, length 64
11:51:42.167581 IP 10.10.64.58 > 10.12.9.139: ICMP echo reply, id 31744, seq 117, length 64

目标机器收到了容器内发出的请求包,并且做了回应,但在问题机器上抓包,没有抓到目标机器的回应包。

查看目标机器上抓到的报文情况,发现源IP是容器的IP(10.12.9.139)。这是有问题的,因为目标机器不是kubernetes中的机器,压根不能访问容器的IP,它看到IP应当是容器所在的node的IP

解决方法

问题应该出iptables上,容器的报文被送离node时没有做snat。

对比问题node的iptables规则和正常node的iptables规则,发现问题node上缺失了一条iptables规则:

-A POSTROUTING -s 10.12.9.138/26 ! -o docker0 -j MASQUERADE

将这条规则添加上以后,状况消失(注意-s指定的是node分配的虚拟网段):

iptables -t nat -A POSTROUTING -s 10.12.9.138/26 ! -o docker0 -j MASQUERADE

为什么会缺了一条iptables规则?需要继续尝试复现。2019-02-15 13:13:18

Kubernetes使用过程中遇到问题汇总


kubernetes_problem

  1. kubernetes ingress-nginx 启用 upstream 长连接,需要注意,否则容易 502
  2. kubernetes ingress-nginx 的 canary 影响指向同一个 service 的所有 ingress
  3. ingress-nginx 启用 tls 加密,配置了不存在的证书,导致 unable to get local issuer certificate
  4. https 协议访问,误用 http 端口,CONNECT_CR_SRVR_HELLO: wrong version number
  5. Kubernetes ingress-nginx 4 层 tcp 代理,无限重试不存在的地址,高达百万次
  6. Kubernetes 集群中个别 Pod 的 CPU 使用率异常高的问题调查
  7. Kubernetes 集群 Node 间歇性变为 NotReady 状态: IO 负载高,延迟严重
  8. Kubernetes的nginx-ingress-controller刷新nginx的配置滞后十分钟导致504
  9. Kubernetes的Nginx Ingress 0.20之前的版本,upstream的keep-alive不生效
  10. Kubernetes node 的 xfs文件系统损坏,kubelet主动退出且重启失败,恢复后无法创建pod
  11. Kubernetes的Pod无法删除,glusterfs导致docker无响应,集群雪崩
  12. Kubernetes集群node无法访问service: kube-proxy没有正确设置cluster-cidr
  13. Kubernetes集群node上的容器无法ping通外网: iptables snat规则缺失导致
  14. Kubernetes问题调查: failed to get cgroup stats for /systemd/system.slice
  15. Kubelet1.7.16使用kubeconfig时,没有设置--require-kubeconfig,导致node不能注册
  16. Kubelet从1.7.16升级到1.9.11,Sandbox以外的容器都被重建的问题调查
  17. Kubernetes: 内核参数rp_filter设置为Strict RPF,导致Service不通
  18. Kubernetes使用过程中遇到的一些问题与解决方法
  19. Kubernetes集群节点被入侵挖矿,CPU被占满
  20. kubernetes的node上的重启linux网络服务后,pod无法联通
  21. kubernetes的pod因为同名Sandbox的存在,一直无法删除
  22. kubelet升级,导致calico中存在多余的workloadendpoint,node上存在多余的veth设备
  23. 使用petset创建的etcd集群在kubernetes中运行失败
  24. Kubernetes 容器启动失败: unable to create nf_conn slab cache
  25. 未在calico中创建hostendpoint,导致开启隔离后,在kubernetes的node上无法访问pod
  26. calico分配的ip冲突,pod内部arp记录丢失,pod无法访问外部服务
  27. kubernetes的dnsmasq缓存查询结果,导致pod偶尔无法访问域名
  28. k8s: rbd image is locked by other nodes
  29. kuberntes的node无法通过物理机网卡访问Service

推荐阅读

Copyright @2011-2019 All rights reserved. 转载请添加原文连接,合作请加微信lijiaocn或者发送邮件: [email protected],备注网站合作

友情链接:  系统软件  程序语言  运营经验  水库文集  网络课程  微信网文  发现知识星球