K8s Pod 崩溃排查手段

张开发
2026/4/12 7:37:42 15 分钟阅读

分享文章

K8s Pod 崩溃排查手段
Kubernetes作为容器编排领域的标杆其Pod崩溃问题一直是运维人员的痛点。当业务突然中断如何快速定位Pod异常根源本文将深入浅出解析5个核心排查手段助你化身故障终结者。日志分析第一现场取证kubectl logs命令是排查的金钥匙通过--previous可查看崩溃前日志结合--tail和--since精准定位异常时间点。若容器未启动需检查kubelet日志journalctl -u kubelet常见镜像拉取失败或权限问题会在此暴露。对于多容器Pod-c参数指定容器名是关键。事件追溯时间线还原术kubectl describe pod能显示完整生命周期事件重点关注Events段落。若看到FailedScheduling需检查节点资源ImagePullBackOff需排查镜像仓库OOMKilled则需调整内存限制。结合kubectl get events --sort-by.metadata.creationTimestamp可获取集群级事件时间线。状态解码退出码破译容器退出码暗藏玄机137代表OOM143是优雅终止255可能是启动脚本错误。通过kubectl get pod -o yaml查看lastState.terminated.exitCode字段结合Linux信号机制解读。例如exit code 128n表示收到信号nSIGSEGV(11)会导致139错误。资源监控隐形杀手现形内存泄漏等慢性病需借助监控工具。kubectl top pod发现异常资源占用Prometheus历史数据可回溯内存增长曲线。特别关注emptyDir卷占满磁盘的情况df -h结合kubectl exec进入容器验证。CPU throttling问题可通过metrics.k8s.io/v1beta1 API检测。配置校验YAML陷阱排查看似正常的配置可能是隐形炸弹。kubectl apply --dry-runclient验证基础语法kubeval工具检查Schema合规性。重点排查livenessProbe过严导致重启循环、securityContext权限不足、hostNetwork冲突等。使用kubectl diff对比新旧配置差异。undefined

更多文章