集群巡检

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
所有文档
menu
没有找到结果,请重新输入

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
  • 文档中心
  • arrow
  • 容器引擎CCE
  • arrow
  • 操作指南
  • arrow
  • 巡检与诊断
  • arrow
  • 集群巡检
本页目录
  • 前提条件
  • 开启集群巡检
  • 查看巡检结果
  • 集群巡检项及解决方案

集群巡检

更新时间:2025-08-21

容器引擎CCE提供集群巡检能力,可以帮助您发现容器服务集群中可能存在的潜在风险,包括:资源配额、集群风险、资源状态等(持续更新中),并针对异常巡检结果提供解决建议,提升运维效率。本文介绍如何使用集群巡检功能排查集群的潜在风险。

前提条件

  • 已创建CCE集群。具体操作,请参见创建集群
  • 已确保Kubernetes集群处于正常运行状态。访问CCE控制台,在集群列表页面,查看目标集群的集群状态。若集群状态为运行中,表示集群处于正常运行状态。

开启集群巡检

重要:使用集群巡检功能时,部分检查项将在您的容器集群内启动容器并采集检查项,采集的信息包括系统版本、负载、Docker、kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。

  1. 登录百度智能云管理控制台,进入“产品服务>云原生>容器引擎 CCE”,点击“集群管理>集群列表”,进入集群列表页面。
  2. 单击目标集群名称,然后在左侧导航栏,选择“巡检与诊断 > 集群巡检”。
  3. 在集群巡检页面右上侧,点击自动巡检&订阅配置,配置执行自动巡检的时间以及订阅报告的发送时间和接收方式。
  4. 您也可以在集群巡检页面,单击开始巡检,手动巡检集群。巡检完成后,将在报告列表区域显示相关信息。

查看巡检结果

  1. 登录百度智能云管理控制台,进入“产品服务>云原生>容器引擎 CCE”,点击“集群管理>集群列表”,进入集群列表页面。
  2. 单击目标集群名称,然后在左侧导航栏,选择 巡检与诊断 > 集群巡检。
  3. 在集群巡检页面的巡检报告列表区域右侧的操作列,单击目标巡检报告ID。
  • 集群巡检会按照触发风险的程度分为低危、中危和高危。如果集群某些巡检项因为未知原因没有执行成功,则会显示“未知”,您可按需提交工单。
  • 集群巡检详细内容包含风险级别、风险项名称、异常影响及解决方案。关于集群巡检的常见风险预警及修复方案的更多信息,请参见集群巡检项及解决方案。
  1. 在检查报告页面,查看风险项、异常影响以及推荐的解决方案。

集群巡检项及解决方案

类型 巡检项 异常影响 修复建议
资源配额 VPC路由规则配额紧张 检查VPC内剩余路由表条目配额是否少于5条。
VPC路由模式下,集群每个节点都会消耗一条路由表规则,当路由表规则耗尽后,集群内无法添加新节点。(VPC-ENI模式下,集群不使用VPC路由表)
前往配额中心申请增加VPC路由规则配额。
EIP实例配额紧张 检查集群所在地域可创建的个人/企业EIP实例数量是否小于5。
EIP配额不足可能影响集群、节点、服务开启公网访问。
前往配额中心申请增加EIP实例配额。
ENI实例配额紧张 检查每个VPC可创建的未挂载主机的弹性网卡数量是否小于5。
ENI配额不足可能导致无法创建和加入节点。
前往配额中心申请增加ENI实例配额。
BLB实例配额紧张 检查集群所在地域可创建的BLB实例数量是否小于5。
BLB配额不足可能影响service、ingress的创建。
前往配额中心申请增加BLB实例配额。
BCC按需付费实例配额紧张 检查集群所在地域的按需付费BCC实例数是否大于95%。
配额不足影响节点创建。
前往配额中心申请增加按需付费BCC实例配额。
CDS容量紧张 检查集群所在地域的CDS磁盘使用量占总容量(TB)是否大于95%。
配额不足影响节点及持久卷创建。
前往配额中心申请增加CDS容量配额。
节点组实例规格可用库存紧张 检查节点组实例规格可用库存数量是否小于15。可用库存数量不足可能影响节点组伸缩。 BCC提工单增加实例规格可用库存 或 使用其他BCC实例规格
资源水位 集群可分配CPU是否充足 检查节点已分配 CPU 是否 > 80%。
当可分配 CPU 小于 Pod Request 值时,将无法创建 Pod。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
集群可分配内存是否充足 检查节点已分配内存是否 > 80%。
当可分配内存小于 Pod Request 值时,将无法创建 Pod。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
节点实时CPU使用率过高 检查节点 CPU 使用率是否 > 80%。
使用率过高可能导致 CPU 资源抢占,影响业务的正常运行。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
节点实时内存水位过高 检查节点内存使用率是否 > 80%。
使用率过高可能导致 OOM(Out of Memory),影响业务的正常运行。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
Pod CPU使用率过高 检查 Workload 的 CPU 负载是否 > 95%。
负载过高可能导致 CPU 资源争抢,影响业务的正常运行。
通过工作负载页面或使用kubectl编辑工作负载YAML,找到resources字段,调整资源配额(Request、Limit)。
通过工作负载页面点击伸缩增加期待Pod数,或使用kubectl编辑工作负载YAML增加实例数。
配置弹性伸缩策略(HPA)。
Pod内存水位过高 检查 Workload 内存负载是否 > 95%。
负载过高可能导致 OOM(Out of Memory),影响业务的正常运行。
通过工作负载页面或使用kubectl编辑工作负载YAML,找到resources字段,调整资源配额(Request、Limit)。
通过工作负载页面点击伸缩增加期待Pod数,或使用kubectl编辑工作负载YAML增加实例数。
配置弹性伸缩策略(HPA)。
节点磁盘使用率过高 检查节点磁盘使用率是否 > 80%。
使用率过高可能导致Pod被驱逐,影响业务的正常运行。
清理临时文件。
增加磁盘容量。
节点根目录容量使用率过高 检查节点根目录容量使用率是否 > 80%。
使用率过高可能影响业务的正常运行。
清理临时文件。
增加磁盘容量。
集群PFS使用率过高 检查PFS使用率是否 > 80%。
PFS使用率达到100%时,将无法向该文件系统写入增量数据,影响业务的正常运行。
PFS提工单扩容。
VPC路由模式剩余Pod网段数不足 检查VPC路由模式下,集群剩余可用PodCIDR网段是否少于5个。每个节点消耗一个PodCIDR网段,集群可添加的节点少于5个。Pod网段耗尽后,新添加的节点将无法正常工作。 CCE提工单扩容。
VPC-ENI模式子网剩余IP数不足 检查VPC-ENI模式下,集群内配置的子网剩余IP是否小于10个,每个Pod占用一个IP。当可用IP耗尽后,新创建的Pod分配不到IP,所以无法正常启动。 查看CCE集群详情,找到容器网络,添加子网。
节点周CPU使用率过高 检查节点过去一周内CPU使用率是否 > 80%。
使用率过高可能导致 CPU 资源抢占,影响业务的正常运行。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
节点周内存水位过高 检查节点过去一周内平均内存使用率是否 > 80%。
使用率过高可能导致 OOM(Out of Memory),影响业务的正常运行。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
节点日CPU使用率过高 检查节点过去一天内CPU使用率是否 > 80%。
使用率过高可能导致 CPU 资源抢占,影响业务的正常运行。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
节点日内存水位过高 检查节点过去一天内平均内存使用率是否 > 80%。
使用率过高可能导致 OOM(Out of Memory),影响业务的正常运行。
1.增加节点数量。
2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。
集群风险 集群Kubernetes版本过低 检查集群Kubernetes版本是否即将或者已经超出支持期限。
CCE仅保障支持最近三个Kubernetes双数版本的稳定运行。过期版本的集群存在运行不稳定和集群升级失败的风险。
参考 升级集群Kubernetes版本
Node数量是否超过规格 检查集群Node数量是否超过集群规格限制。
Node数量超过规格限制可能导致控制面资源耗尽和节点组扩缩容失败。
CCE 提工单升级集群规格。
集群删除保护是否开启 检查集群是否开启删除保护功能。
如未开启,集群有可能被控制台或 API 误删除,导致业务故障。
开启集群删除保护。(点击集群详情-基本信息-集群删除保护)
审计日志是否开启 检查检查审计日志是否开启。
开启集群审计日志方便日常排查问题。
开启集群审计。
集群worker node (ready)数量 检查集群中 Worker 节点的数量是否少于2 个。
单个节点的集群存在单点失效问题。
添加节点。
CoreDNS 组件状态 检查 CoreDNS 组件是否为 非 Running 状态。
该组件异常会导致集群内 DNS 解析错误,无法通过 Service 名称进行访问。
检查 CoreDNS 组件状态,排除异常原因。
CoreDNS 是否有新版本 检查CoreDNS是否有最新版本。
集群内CoreDNS组件版本过低,会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。
升级CoreDNS(集群左侧导航点击运维与管理-组件管理-网络-CoreDNS组件,在组件右下角找到升级按钮)。手动升级具体参考:https://cloud.baidu.com/doc/CCE/s/glto9zt0l
CoreDNS 高可用 检查 CoreDNS 组件的副本数是否大于2个,且不同副本部署在不同的节点中。
如未达到预期要求,则 CoreDNS 不具备高可用性,存在单点失效风险。当节点宕机或重启的时,CoreDNS 将无法提供服务,影响业务正常运行。
检查 CoreDNS 副本状态,保持 2 个以上副本,并将副本打散到不同的节点上。
DNS Service是否正常 检查集群DNS服务的Cluster IP是否正常分。
集群DNS服务异常会造成集群功能异常,影响业务。
检查CoreDNS Pod运行状态和运行日志,排查DNS问题。
APIServer BLB 6443端口监听配置是否正常 检查集群API Server BLB 6443端口监听配置。
若配置异常,将导致集群无法访问。
1.前往BLB应用型实例页面找到集群关联的BLB实例,检查BLB实例监听设置。
2.如果找不到BLB实例,请提CCE工单。
APIServer BLB 实例是否存在 检查集群API Server负载均衡实例是否存在。
若集群API Server负载均衡实例不存在,会造成集群不可用。
1.前往BLB应用型实例页面检查集群关联的BLB实例是否存在。
2.如果找不到BLB实例,请提CCE工单。
APIServer BLB 实例状态是否正常 检查集群API Server BLB实例状态。
若实例状态异常,将会影响集群可用性。
1.前往BLB应用型实例页面找到集群关联的BLB实例,在实例详情里检查BLB实例状态。
2.如果找不到BLB实例,请提CCE工单。
节点Kubelet组件版本低于控制面版本 检查节点Kubelet组件版本是否低于控制面版本。
Kubelet版本低于控制面版本可能导致兼容性问题和安全性问题。
升级Kubelet版本。
安全组规则 检查节点安全组出/入方向规则是否满足集群访问权限需求。
安全组规则不满足集群访问权限需求可能影响容器网络连通性。
前往VPC访问控制-安全组页面,调整安全组规则。
节点是否关联CCE安全组 检查集群节点是否关联CCE安全组。
未关联CCE安全组可能影响容器网络连通性。
找到目标BCC实例并查看实例详情,在实例安全组界面选择网卡并绑定CCE默认安全组。
APIServer BLB 6443端口目标组配置是否正常 检查集群API Server BLB 6443端口对应目标组是否配置正常。
若配置异常,可能导致集群无法访问。
1.前往BLB应用型实例页面找到集群关联的BLB实例,检查BLB实例目标组的配置。
2.如果找不到BLB实例,请提CCE工单。
APIServer Loopback 证书过期 检查API Server Loopback证书是否过期。
如果过期,可能影响API Server内部通信。
重启APIServer。
组件风险 集群组件状态是否正常 检查组件管理的组件(已经安装的组件)是否符合预期状态。
组件状态不正常可能无法提供对应服务,影响业务正常运行。
检查组件状态。
集群组件是否有最新版本 检查集群中关键组件是否需要更新版本。
新版本的组件提供了新功能和更好的稳定性。
升级组件。
资源状态 节点状态 检查集群中是否存在 NotReady 的节点。
如果节点状态异常,会导致 Pod 无法被调度到该节点上。
查看节点状态,必要时扩容或缩容节点。
Workload 副本数 检查工作负载的期望副本数和实际副本数是否一致。
如不一致,则不满足高可靠性要求。
检查副本数异常工作负载,排除异常原因,更新副本数。
DaemonSets 状态检测(检查 DaemonSets 数量是否和节点数量一致) 检查 DaemonSets 数量是否和节点数量一致。
如未达到预期副本数,则可能导致相关功能异常。
检查副本数异常原因,排除异常原因,更新副本数。

上一篇
GPU运行环境检查
下一篇
故障诊断