🔧 K8s 自動修復報告

<aside> 📅

執行時間: 2025-12-22 19:13:28 (UTC+8) 執行結果: ✅ 清理完成 問題類型: 多類型故障(ImagePullBackOff + CrashLoopBackOff + Service 無 Endpoints)

</aside>

📋 執行摘要

本次修復涉及 14 個問題,包括鏡像拉取失敗、Pod 崩潰循環和 Service Endpoints 為空。根本原因為網路隔離導致無法從 Docker Hub 拉取鏡像。由於 kube-system 命名空間禁止修改,採取清理策略移除所有無法修復的故障 Deployments。

集群環境

節點名稱 角色 IP 位址 作業系統 K8s 版本
master.example.com Control Plane 192.168.122.10 Rocky Linux 9.7 v1.24.0
node1.example.com Worker 192.168.122.11 Rocky Linux 9.6 v1.24.0
node2.example.com Worker 192.168.122.12 Rocky Linux 9.6 v1.24.0

🔍 問題分析

K8sGPT 診斷摘要

資源類型 狀態 問題數量
Pod ❌ ProblemDetected 7
Node ✅ OK 0
Deployment ❌ ProblemDetected 4
Service ❌ ProblemDetected 3
Ingress ✅ OK 0

總計偵測到 14 個問題


問題詳情

問題一:鏡像拉取失敗 (ImagePullBackOff)

<aside> 🚨

影響範圍: 5 個 Pod 無法啟動

錯誤原因: 網路超時無法連線至 Docker Hub (registry-1.docker.io)

</aside>

Namespace Pod 名稱 狀態 節點
b nginx-8f458dc5b-lfh8b ImagePullBackOff node1
default mydb-59db5777fd-sbg4v ImagePullBackOff node2
default mydb-9f95d7dc7-rchfg ImagePullBackOff node2
default nginx-574bf85f79-54b87 ErrImagePull node2
default nginx-78b6cd878b-cks2b ImagePullBackOff node2

問題二:Pod 崩潰循環 (CrashLoopBackOff)

<aside> 🔄

影響範圍: Calico CNI 核心元件故障

錯誤原因: BGP Peering 未建立,無法連線至 API Server

</aside>

Namespace Pod 名稱 重啟次數 節點
kube-system calico-kube-controllers-6766647d54-vbskz 53 次 node1
kube-system calico-node-lstdl 88 次 master