排错概览
在排错过程中, 是最重要的工具,通常也是定位错误的起点。这里也列出一些常用的命令,在后续的各种排错过程中都会经常用到。
查看 Pod 状态以及运行节点
查看 Pod 事件
kubectl describe pod <pod-name>
查看 Node 状态
kubectl get nodes
kubectl describe node <node-name>
kube-apiserver 日志
kube-controller-manager 日志
PODNAME=$(kubectl -n kube-system get pod -l component=kube-controller-manager -o jsonpath='{.items[0].metadata.name}')
kubectl -n kube-system logs $PODNAME --tail 100
以上命令操作假设控制平面以 Kubernetes 静态 Pod 的形式来运行。如果 kube-controller-manager 是用 systemd 管理的,则需要登录到 master 节点上,然后使用 journalctl -u kube-controller-manager 查看其日志。
kube-scheduler 日志
kubectl -n kube-system logs $PODNAME --tail 100
kube-dns 日志
kube-dns 通常以 Addon 的方式部署,每个 Pod 包含三个容器,最关键的是 kubedns 容器的日志:
Kubelet 日志
chmod +x ./kubectl-node_shell
sudo mv ./kubectl-node_shell /usr/local/bin/kubectl-node_shell
journalctl -l -u kubelet
Kube-proxy 日志
Kube-proxy 通常以 DaemonSet 的方式部署,可以直接用 kubectl 查询其日志
$ kubectl -n kube-system get pod -l component=kube-proxy
NAME READY STATUS RESTARTS AGE
kube-proxy-42zpn 1/1 Running 0 1d
kube-proxy-7gd4p 1/1 Running 0 3d
$ kubectl -n kube-system logs kube-proxy-42zpn
- 整理了一些公开的 Kubernetes 异常案例。
- https://docs.microsoft.com/en-us/azure/aks/troubleshooting 包含了 AKS 中排错的一般思路