故障诊断

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
所有文档
menu
没有找到结果,请重新输入

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
  • 文档中心
  • arrow
  • 容器引擎CCE
  • arrow
  • 操作指南
  • arrow
  • 巡检与诊断
  • arrow
  • 故障诊断
本页目录
  • 概述
  • 前提条件
  • 诊断功能介绍
  • 开启故障诊断
  • 查看诊断结果
  • 节点诊断项及说明
  • Node 节点
  • NodeComponent 节点核心组件
  • ClusterComponent 集群组件
  • GPUNode GPU 节点
  • Pod诊断项及说明

故障诊断

更新时间:2025-08-21

概述

百度云容器引擎(CCE)故障诊断功能提供自动化异常检测与根因定位能力,支持对集群核心组件的健康状态进行系统性检查,帮您快速识别常见配置错误、资源瓶颈及组件故障‌。

前提条件

  • 已创建CCE集群。具体操作,请参见创建集群
  • 已确保Kubernetes集群处于正常运行状态。

诊断功能介绍

当前版本重点覆盖 ‌节点级‌ 与 ‌Pod级‌ 资源异常诊断,详细诊断项参考文档下方说明。

开启故障诊断

重要:故障诊断功能采集的信息包括系统版本、负载、docker、kubelet等组件运行状态,系统日志中关键错误信息。诊断全程遵循数据安全规范,不涉及任何业务及敏感数据。

节点诊断和Pod诊断操作类似,下文以开启节点诊断为例,介绍如何使用故障诊断功能。
方式一:

  1. 登录百度智能云管理控制台,进入“产品服务>云原生>容器引擎 CCE”,点击“集群管理>集群列表”,进入集群列表页面。
  2. 单击目标集群名称,然后在左侧导航栏【巡检与诊断】中,选择“故障诊断”。
  3. 在集群巡检选择【节点诊断】Tab,单击【立即诊断】
  4. 在节点诊断弹窗选择节点名称,仔细阅读注意事项后选中我已知晓并同意,然后单确认发起诊断。
    方式二:
  5. 在目标集群的节点列表页,操作列选择【故障诊断】
  6. 跳转到节点诊断弹窗后,仔细阅读注意事项后选中我已知晓并同意,然后单确认发起诊断。

发起诊断后,您可以根据任务诊断中的状态查看诊断进展。

查看诊断结果

在故障诊断页面诊断列表页,单击目标诊断报告对应的诊断详情,在诊断详情页面查看详细诊断结果。

节点诊断项及说明


Node 节点


诊断项名称 诊断项说明 修复方案
节点状态 确认节点状态为 Ready。 请尝试重启节点
节点调度状态 确认节点未被标记为不可调度。 节点不可调度,请检查节点封锁设置。具体操作,请参见设置节点封锁。
BCC 实例是否存在 检查节点对应的 BCC 实例存在。 检查BCC实例状态。
BCC 实例健康状态 检查节点对应的 BCC 实例运行正常。 检查BCC实例状态。
节点 CPU 使用率 检查节点当前 CPU 使用率处于正常范围。 无
节点内存使用率 检查节点当前内存使用率处于正常范围。 无
节点周 CPU 水位 检查节点过去一周 CPU 使用率未持续过高,避免资源争抢影响业务。 为避免业务受到影响,请设置合理的Pod request和limit,避免一个节点上运行的Pod过多。
节点周内存水位 检查节点过去一周内存使用率未持续过高,避免 OOM 影响业务。 为避免业务受到影响,请设置合理的Pod request和limit,避免一个节点上运行的Pod过多。
节点 OOM 事件 检查节点未发生 OOM (内存溢出) 事件。 登陆节点,查看Pod所在节点的内核日志/var/log/messages
Kubelet 状态 检查节点 Kubelet 运行正常。 请检查节点Kubelet日志。
Containerd 状态 检查节点 Containerd 服务运行正常。 登陆节点,查看节点的内核日志/var/log/messages
Docker 状态 检查节点 Docker 服务运行正常。 登陆节点,查看节点的内核日志/var/log/messages
Docker hang检测 检查节点未发生 Docker hang情况。 请尝试登录节点,通过命令systemctl restart docker重启Docker。
API Server 连接 检查节点可正常连接集群 API Server。 请检查集群相关配置。
节点 DNS 服务 检查节点可正常使用主机 DNS 服务。 请检查主机DNS服务是否正常。更多信息,请参见DNS问题排查指南。
集群 DNS 服务 检查节点访问集群kube-dns服务的Cluster IP,正常使用集群的DNS服务 请检查CoreDNS Pod运行状态和运行日志。更多信息,请参见DNS问题排查指南。
集群CoreDNS Pod可用性 检查节点可正常访问集群 CoreDNS的Pod IP地址。 请检查节点能否正常访问CoreDNS的Pod IP地址。
Containerd 镜像拉取 检查节点 Containerd 可正常拉取镜像。 请检查节点网络及镜像配置。
Docker 镜像拉取状态 检查节点 Docker 可正常拉取镜像。 请检查节点网络及镜像配置。

NodeComponent 节点核心组件


诊断项名称 诊断项说明 修复建议
CNI 组件状态 检查节点 CNI组件运行正常。 请提交工单处理。
CSI 组件状态 确认节点 CSI 组件运行正常。 请前往CCE集群-运维与管理-组件管理-存储,检查集群件存储组件状态。
Network Agent 状态 确认节点 Network Agent 服务运行正常。 请提交工单处理。
Network Operator 状态 确认集群 Network Operator 服务运行正常。 请提交工单处理。

ClusterComponent 集群组件


诊断项名称 诊断项说明 修复建议
Pod网段余量 确认 VPC路由模式下集群剩余可用 PodCIDR 网段大于 5 个,避免 Pod 网段耗尽导致新节点无法正常工作。 请提交工单处理。
DNS 服务 ClusterIP 确认集群 DNS 服务的 Cluster IP 已正常分配,DNS 服务异常将导致集群功能异常,影响业务 请检查CoreDNS Pod运行状态和运行日志。更多信息,请参见DNS问题排查指南
API Server BLB 实例状态 确认 API Server BLB 实例运行正常。 前往BLB应用型实例页面找到集群关联的BLB实例,在实例详情里检查BLB实例状态。
API Server BLB 实例是否存在 确认 API Server BLB 实例存在。 前往BLB应用型实例页面检查集群关联的BLB实例是否存在。
API Server BLB 6443 端口监听 确认 API Server BLB 6443 端口监听配置正确。 前往BLB应用型实例页面找到集群关联的BLB实例,检查BLB实例目标组的配置。
节点与容器子网可用区一致性 确认 VPC-ENI 模式下节点和容器子网位于同一可用区。 查看CCE集群详情,找到容器网络,添加子网并确保节点和子网位于同一可用区。
子网 IP 余量 确认 VPC-ENI 模式下子网剩余 IP 数量充足。 查看CCE集群详情,找到容器网络,添加子网。

GPUNode GPU 节点


诊断项名称 诊断项说明 修复建议
GPU节点状态 检查节点GPU综合状态是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU节点可分配GPU数 检查节点可分配GPU数是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID48Error 检查 NVIDIA GPU Double Bit ECC Error。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID62Error 检查 NVIDIA GPU Internal micro-controller halt (newer drivers)。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID64Error 检查 NVIDIA GPU ECC page retirement or row remapper recording failure。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID74Error 检查 NVIDIA GPU NVLINK Error。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID79Error 检查 NVIDIA GPU 掉卡:GPU has fallen off the bus。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID95Error 检查 NVIDIA GPU Uncontained ECC error。 请尝试重启GPU节点,重启未恢复请提交工单处理
NVIDIA XID109Error 检查 NVIDIA GPU Context Switch Timeout Error。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XID140Error 检查 NVIDIA GPU Unrecovered ECC Error。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA XIDError 检查 NVIDIA GPU XID错误。 请尝试重启GPU节点,重启未恢复请提交工单处理
NVIDIA SXIDError 检查 NVIDIA GPU SXID错误。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA 存在行重映射失败 检查 NVIDIA GPU 是否存在行重映射失败。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA Device Plugin掉卡 检查 NVIDIA Device Plugin 是否上报掉卡。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA InfoROM情况 检查 NVIDIA GPU infoROM 是否已损坏。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA ECC错误 检查 NVIDIA GPU ECC错误。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA GPU高温告警 检查 NVIDIA GPU 温度是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA GPU运行模式 检查 NVIDIA GPU 运行模式是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA-SMI状态码 检查 nvidia-smi 状态码。 请尝试重启GPU节点,重启未恢复请提交工单处理。
PCI配置读写 检查 PCI 配置是否读写失败。 请尝试重启GPU节点,重启未恢复请提交工单处理。
PCI地址访问 检查 lspci 是否能够读取 GPU 配置空间。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU带宽 检查 GPU 带宽是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU功耗告警 检查 GPU 功耗是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU驱动无法访问 检查 GPU 驱动是否能够正常访问。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA GPU识别情况 检查总线的 NVIDIA GPU 是否能够被驱动和nvidia-smi识别。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA-Container-Toolkit版本 检查 NVIDIA-Container-Toolkit 版本是否符合集群版本。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA-Container-Toolkit配置 检查 NVIDIA-Container-Toolkit 在容器运行时配置是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA-Container-Toolkit状态 检查 NVIDIA-Container-Toolkit 状态是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU节点上的异常进程 检查 GPU 节点上是否存在异常进程。 请尝试重启GPU节点,重启未恢复请提交工单处理。
HAS状态 检查 HAS 状态是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
HAS版本 检查 HAS 版本是否支持。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA 掉卡情况 检查 NVIDIA GPU 是否已从总线上掉落或不可访问。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA ECC错误超过限制 检查 NVIDIA GPU ECC 内存校验错误是否超过限制。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA GPU互联链路方式 检查 NVIDIA GPU 互联通信链路方式是否正常(SYS或NODE方式链接将导致降速 )。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA GPU互联链路告警 检查 NVLink & NVSwitch错误 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA GPU互联服务错误 检查 GPU 互联服务 FabricManager 是否正常。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVLink状态 检查 NVLink 是否中断或失活。 请尝试重启GPU节点,重启未恢复请提交工单处理。
CUDA版本 检查 CUDA 版本是否支持。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU驱动版本 检查 GPU 驱动版本是否支持。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVIDIA设备电源线连接 检查NVIDIA GPU 设备电源线是否正确连接。 请尝试重启GPU节点,重启未恢复请提交工单处理。
NVLink数量 检查 NVLink的links数量是否减少。 请尝试重启GPU节点,重启未恢复请提交工单处理。
GPU与网卡连接类型 检查网卡位置是否插错。 请尝试重启GPU节点,重启未恢复请提交工单处理。
节点网卡状态 检查网卡综合状态。 请尝试重启GPU节点,重启未恢复请提交工单处理。
网卡PCI地址不可用 检查网卡 PCI 地址是否不可用。 请尝试重启GPU节点,重启未恢复请提交工单处理。
网卡通道数量 检查网卡通道数量是否达到支持的最大值。 请尝试重启GPU节点,重启未恢复请提交工单处理。
网卡带宽 检查网卡带宽是否达到支持的最大值。 请尝试重启GPU节点,重启未恢复请提交工单处理。

Pod诊断项及说明


诊断项名称 诊断项说明 修复建议
Pod 容器重启次数 统计 Pod 内容器的重启次数,识别异常重启情况。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
Pod 容器镜像下载 检查 Pod 所在节点是否存在其他 Pod 的镜像下载阻塞,避免资源竞争。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
Pod 容器镜像拉取 Secrets 有效性 检查 Pod 拉取镜像所需的 Secrets 有效,避免镜像拉取失败。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
Pod 内存使用情况 检查 Pod 内存使用率 ≤ 95%,避免内存过高导致 OOM 影响业务 1.通过工作负载页面或使用kubectl编辑工作负载YAML,找到resources字段,调整资源配额(Request、Limit)。
2.通过工作负载页面点击伸缩增加期待Pod数,或使用kubectl编辑工作负载YAML增加实例数。
3.配置弹性伸缩(HPA)。
Pod CPU使用情况 检查 Pod CPU 使用率 ≤ 95%,避免 CPU 过高导致资源争抢影响业务。 1.通过工作负载页面或使用kubectl编辑工作负载YAML,找到resources字段,调整资源配额(Request、Limit)。
2.通过工作负载页面点击伸缩增加期待Pod数,或使用kubectl编辑工作负载YAML增加实例数。
3.配置弹性伸缩(HPA)。
Pod到CoreDNS Pods的连通性 检查 Pod 可正常访问 CoreDNS Pods 检查Pod到CoreDNS Pods的连通性。
Pod到CoreDNS Service的连通性 检查 Pod 可正常访问 CoreDNS Service 检查Pod到CoreDNS Pods的连通性。
Pod到主机网络DNS服务器的连通性 检查 Pod 可正常访问主机网络 DNS 服务器 检查Pod到主机网络DNS服务器的连通性。
Pod初始化状态 检查 Pod 已完成初始化,进入正常运行阶段。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
Pod调度状态 检查 Pod 已被成功调度到目标节点。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
Pod是否可调度 检查 Pod 满足调度条件,可被调度到合适节点。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。
Pod状态 检查 Pod 当前状态符合预期,例如 Running、Pending 等。 请检查Pod状态及日志。更多信息,请参见Pod异常问题排查。

上一篇
集群巡检
下一篇
流量接入