所有文档

没有找到结果，请重新输入

容器引擎 CCE

昇腾资源池总览

更新时间：2025-08-21

前提条件

已安装CCE Ascend Mindx DL组件
已接入监控实例
需启用采集任务,具体参考文档：接入监控实例并启用采集任务

使用方法

登录容器引擎CCE控制台。
点击左侧集群管理，在集群列表中选择您需要的集群名称，在右侧操作>更多中点击Prometheus监控，即可跳转至Prometheus监控服务。

在Prometheus监控页面下方选项中选择云原生AI监控，随后选择昇腾资源池总览。

昇腾资源池总览如图所示

您可以点击右上角按钮，自行设定监控时间、手动刷新、自动刷新。

昇腾资源池总览具体说明

节点使用情况

监控项	说明
总节点数	集群中所有节点
已分配节点数	可用NPU卡数为0的节点
空闲节点数	NPU卡数大于0的节点，含污点节点
不可用节点数	封锁或not ready节点

集群卡分配情况

监控项	说明
总卡数	集群中所有节点上的NPU卡数
已分配卡数	已分配使用中的NPU卡数
空闲卡数	NPU卡数大于0的节点，含污点节点空闲卡数
不可用卡数	集群中节点上的不可用卡数

卡使用情况

监控项	说明
卡平均利用率	当前集群内所有节点上NPU卡平均利用率实时值，卡平均利用率=sum(所有节点NPU卡利用率)/所有节点NPU卡数
卡显存平均利用率	当前集群内所有节点上NPU卡显存平均利用率实时值，显存平均利用率=sum（所有节点NPU卡显存利用率）/所有节点NPU卡数

CPU&内存

监控项	说明
CPU核数	当前集群内CPU总核数
CPU平均利用率	当前集群内所有CPU平均利用率实时值
内存总量	当前集群内存总量
内存平均利用率	当前集群内所有内存平均利用率实时值

NPU节点信息

监控项	说明
节点名称	当前集群内的节点名称
卡类型	当前集群内的卡类型
CPU利用率	当前节点内所有CPU平均利用率实时值
内存利用率	当前节点内所有内存平均利用率实时值
CPU核数	当前节点内CPU总核数
内存总量	当前节点内存总量
卡总数	当前节点NPU卡总数
NPU平均利用率	当前集群内节点上NPU卡的平均利用率
NPU-Pod数	当前节点内占用NPU资源的Pod数量
已分配卡数	当前集群内节点上分配的NPU卡数
NPU显存平均利用率	当前集群内节点上NPU卡显存的平均利用率

占用NPU的工作负载信息

监控项	说明
负载类型	当前集群占用NPU的工作负载类型
负载名称	当前集群占用NPU的工作负载名称
命名空间	当前集群占用NPU的工作负载所在命名空间
NPU配给卡数	当前集群占用NPU的工作负载配给NPU卡数
显存平均利用率	当前集群占用NPU的工作负载内所有NPU卡显存平均利用率实时值
NPU平均利用率	当前集群占用NPU的工作负载内NPU卡平均利用率实时值
内存使用量	当前集群占用NPU的工作负载的内存使用量
CPU核数	当前集群占用NPU的工作负载的CPU核数

昇腾节点资源

昇腾工作负载资源