通过VK获取实例监控指标

容器实例 BCI

  • 产品定价
  • 功能发布记录
  • 操作指南(旧)
    • 创建容器组
  • 产品描述
    • 产品特性
    • 使用限制
    • 核心概念
    • 什么是BCI?
  • BCI服务等级协议SLA
    • BCI服务等级协议SLA
  • API参考
    • 通用说明
    • 附录
    • 服务域名
    • 公共请求头与响应头
    • 错误码
    • 概述
    • 实例相关接口
      • 批量删除实例
      • 查询实例列表
      • 创建实例
      • 删除实例
      • 查询实例详情
    • 镜像缓存相关接口
      • 创建镜像缓存
      • 查询镜像缓存列表
      • 批量删除镜像缓存
  • 操作指南
    • 通过BCI控制台和API使用BCI
      • 多用户访问控制
      • 运维
        • 使用coredump分析实例程序异常
      • 网络
        • 连接公网
      • 监控
        • 查看实例监控指标
      • 镜像
        • 使用CCR镜像仓库
        • 使用第三方镜像仓库
        • 镜像缓存
          • 管理镜像缓存
          • 镜像缓存概述
      • 存储
        • 挂载CFS数据卷
        • 挂载EmptyDir数据卷
        • 挂载ConfigMap数据卷
      • 容器配置
        • 设置容器启动命令和参数
      • 通过控制台使用BCI
        • 连接BCI实例
        • 删除BCI实例
        • 创建BCI实例
        • 查看BCI实例的详情和事件
      • BCI Pod
        • BCI Pod生命周期
        • BCI Pod概述
      • 成本优化
        • 预留实例券
          • 购买预留实例券
          • 预留实例券与实例的匹配
          • 查看预留实例券使用明细
          • 查看可抵扣的实例
          • 预留实例券概述
    • 通过CCE使用BCI
      • 运维
        • 使用coredump分析实例程序异常
        • 常见问题
      • 网络
        • 配置BCI Pod所属安全组
        • 连接公网
        • 支持自定义DNSConfig
        • 通过Service访问BCI服务
        • 配置BCI Pod访问集群内Service
      • 监控
        • 查看实例监控指标
        • 通过VK获取实例监控指标
      • 镜像
        • 使用CCR镜像仓库
        • 使用第三方镜像仓库
        • 镜像缓存
      • 存储
        • 挂载容器标准输出日志
        • 挂载EmptyDir数据卷
        • 挂载CFS文件存储
        • 挂载ConfigMap数据卷
        • 挂载BOS数据卷
        • 挂载PFS并行文件存储
      • 对接BCI
        • 对接概述
        • 混合调度
        • 通过标签将Pod调度到VNode上运行
        • 将Pod调度到VNode
        • BCI自定义Condition
      • 容器配置
        • 设置容器时区
        • 容器生命周期回调
        • 在容器内获取元数据
        • 配置NTP服务
        • 强制终止Sidecar容器并忽略容器退出码
        • 使用探针对容器进行健康检查
        • 忽略Sidecar容器的NotReady状态
        • 设置容器终止消息
        • 设置容器启动命令和参数
      • 日志
        • BLS日志采集使用方式
      • BCI Pod
        • 指定vCPU和内存创建Pod
        • BCI Pod生命周期
        • BCI Pod概述
        • 自定义设置BCI Pod的hosts
        • 创建GPU实例
        • 配置资源规整时忽略特定容器
        • 设置BCI Pod的故障处理策略
        • 为BCI Pod绑定自定义标签
        • 自定义设置BCI Pod的最大Pending时长
        • BCI Pod Annotation
        • 配置bci-profile
        • 多可用区创建实例
      • 成本优化
        • 预留实例券
          • 购买预留实例券
          • 预留实例券与实例的匹配
          • 查看预留实例券使用明细
          • 查看可抵扣的实例
          • 预留实例券概述
    • 通过自建集群使用BCI
      • 运维
        • 使用coredump分析实例程序异常
      • 监控
        • 查看实例监控指标
        • 通过VK获取实例监控指标
      • 存储管理
        • 挂载EmptyDir数据卷
        • 挂载CFS文件存储
        • 挂载ConfigMap数据卷
        • 挂载PFS并行文件存储
      • 镜像管理
        • 使用CCR镜像仓库
        • 使用第三方镜像仓库
        • 使用镜像缓存
          • 查询镜像缓存
          • 镜像缓存概述
      • 对接BCI
        • 自建Kubernetes集群对接VNode
        • 对接概述
        • 混合调度
        • 通过标签将Pod调度到VNode上运行
        • 将Pod调度到VNode
        • BCI自定义condition
      • 容器配置
        • 设置容器时区
        • 容器生命周期回调
        • 在容器内获取元数据
        • 配置NTP服务
        • 强制终止Sidecar容器并忽略容器退出码
        • 使用探针对容器进行健康检查
        • 忽略Sidecar容器的NotReady状态
        • 设置容器终止消息
        • 设置容器启动命令和参数
      • 网络管理
        • 配置BCI Pod所属安全组
        • 连接公网
        • 支持自定义DNSConfig
        • 配置BCI Pod访问集群内Service
      • 预留实例券
        • 购买预留实例券
        • 预留实例券与实例的匹配
        • 查看预留实例券使用明细
        • 查看可抵扣的实例
        • 预留实例券概述
      • 日志
        • 采集日志到百度云BLS
        • bls日志采集使用方式
      • BCI Pod
        • 指定vCPU和内存创建Pod
        • BCI Pod生命周期
        • BCI Pod概述
        • 自定义设置BCI Pod的hosts
        • 创建GPU实例
        • 配置资源规整时忽略特定容器
        • 设置BCI Pod的故障处理策略
        • 为BCI Pod绑定自定义标签
        • 自定义设置BCI Pod的最大Pending时长
        • BCI Pod Annotation
        • 多可用区创建实例
  • SDK
    • Java-SDK
      • 异常处理
      • 版本变更记录
      • 初始化
      • 安装SDK工具包
      • 概述
      • 实例相关
        • 批量删除实例
        • 查询实例列表
        • 创建实例
        • 删除实例
        • 查询实例详情
    • Go-SDK
      • 异常处理
      • BCI实例
      • 初始化
      • 安装SDK工具包
      • 概述
所有文档
menu
没有找到结果,请重新输入

容器实例 BCI

  • 产品定价
  • 功能发布记录
  • 操作指南(旧)
    • 创建容器组
  • 产品描述
    • 产品特性
    • 使用限制
    • 核心概念
    • 什么是BCI?
  • BCI服务等级协议SLA
    • BCI服务等级协议SLA
  • API参考
    • 通用说明
    • 附录
    • 服务域名
    • 公共请求头与响应头
    • 错误码
    • 概述
    • 实例相关接口
      • 批量删除实例
      • 查询实例列表
      • 创建实例
      • 删除实例
      • 查询实例详情
    • 镜像缓存相关接口
      • 创建镜像缓存
      • 查询镜像缓存列表
      • 批量删除镜像缓存
  • 操作指南
    • 通过BCI控制台和API使用BCI
      • 多用户访问控制
      • 运维
        • 使用coredump分析实例程序异常
      • 网络
        • 连接公网
      • 监控
        • 查看实例监控指标
      • 镜像
        • 使用CCR镜像仓库
        • 使用第三方镜像仓库
        • 镜像缓存
          • 管理镜像缓存
          • 镜像缓存概述
      • 存储
        • 挂载CFS数据卷
        • 挂载EmptyDir数据卷
        • 挂载ConfigMap数据卷
      • 容器配置
        • 设置容器启动命令和参数
      • 通过控制台使用BCI
        • 连接BCI实例
        • 删除BCI实例
        • 创建BCI实例
        • 查看BCI实例的详情和事件
      • BCI Pod
        • BCI Pod生命周期
        • BCI Pod概述
      • 成本优化
        • 预留实例券
          • 购买预留实例券
          • 预留实例券与实例的匹配
          • 查看预留实例券使用明细
          • 查看可抵扣的实例
          • 预留实例券概述
    • 通过CCE使用BCI
      • 运维
        • 使用coredump分析实例程序异常
        • 常见问题
      • 网络
        • 配置BCI Pod所属安全组
        • 连接公网
        • 支持自定义DNSConfig
        • 通过Service访问BCI服务
        • 配置BCI Pod访问集群内Service
      • 监控
        • 查看实例监控指标
        • 通过VK获取实例监控指标
      • 镜像
        • 使用CCR镜像仓库
        • 使用第三方镜像仓库
        • 镜像缓存
      • 存储
        • 挂载容器标准输出日志
        • 挂载EmptyDir数据卷
        • 挂载CFS文件存储
        • 挂载ConfigMap数据卷
        • 挂载BOS数据卷
        • 挂载PFS并行文件存储
      • 对接BCI
        • 对接概述
        • 混合调度
        • 通过标签将Pod调度到VNode上运行
        • 将Pod调度到VNode
        • BCI自定义Condition
      • 容器配置
        • 设置容器时区
        • 容器生命周期回调
        • 在容器内获取元数据
        • 配置NTP服务
        • 强制终止Sidecar容器并忽略容器退出码
        • 使用探针对容器进行健康检查
        • 忽略Sidecar容器的NotReady状态
        • 设置容器终止消息
        • 设置容器启动命令和参数
      • 日志
        • BLS日志采集使用方式
      • BCI Pod
        • 指定vCPU和内存创建Pod
        • BCI Pod生命周期
        • BCI Pod概述
        • 自定义设置BCI Pod的hosts
        • 创建GPU实例
        • 配置资源规整时忽略特定容器
        • 设置BCI Pod的故障处理策略
        • 为BCI Pod绑定自定义标签
        • 自定义设置BCI Pod的最大Pending时长
        • BCI Pod Annotation
        • 配置bci-profile
        • 多可用区创建实例
      • 成本优化
        • 预留实例券
          • 购买预留实例券
          • 预留实例券与实例的匹配
          • 查看预留实例券使用明细
          • 查看可抵扣的实例
          • 预留实例券概述
    • 通过自建集群使用BCI
      • 运维
        • 使用coredump分析实例程序异常
      • 监控
        • 查看实例监控指标
        • 通过VK获取实例监控指标
      • 存储管理
        • 挂载EmptyDir数据卷
        • 挂载CFS文件存储
        • 挂载ConfigMap数据卷
        • 挂载PFS并行文件存储
      • 镜像管理
        • 使用CCR镜像仓库
        • 使用第三方镜像仓库
        • 使用镜像缓存
          • 查询镜像缓存
          • 镜像缓存概述
      • 对接BCI
        • 自建Kubernetes集群对接VNode
        • 对接概述
        • 混合调度
        • 通过标签将Pod调度到VNode上运行
        • 将Pod调度到VNode
        • BCI自定义condition
      • 容器配置
        • 设置容器时区
        • 容器生命周期回调
        • 在容器内获取元数据
        • 配置NTP服务
        • 强制终止Sidecar容器并忽略容器退出码
        • 使用探针对容器进行健康检查
        • 忽略Sidecar容器的NotReady状态
        • 设置容器终止消息
        • 设置容器启动命令和参数
      • 网络管理
        • 配置BCI Pod所属安全组
        • 连接公网
        • 支持自定义DNSConfig
        • 配置BCI Pod访问集群内Service
      • 预留实例券
        • 购买预留实例券
        • 预留实例券与实例的匹配
        • 查看预留实例券使用明细
        • 查看可抵扣的实例
        • 预留实例券概述
      • 日志
        • 采集日志到百度云BLS
        • bls日志采集使用方式
      • BCI Pod
        • 指定vCPU和内存创建Pod
        • BCI Pod生命周期
        • BCI Pod概述
        • 自定义设置BCI Pod的hosts
        • 创建GPU实例
        • 配置资源规整时忽略特定容器
        • 设置BCI Pod的故障处理策略
        • 为BCI Pod绑定自定义标签
        • 自定义设置BCI Pod的最大Pending时长
        • BCI Pod Annotation
        • 多可用区创建实例
  • SDK
    • Java-SDK
      • 异常处理
      • 版本变更记录
      • 初始化
      • 安装SDK工具包
      • 概述
      • 实例相关
        • 批量删除实例
        • 查询实例列表
        • 创建实例
        • 删除实例
        • 查询实例详情
    • Go-SDK
      • 异常处理
      • BCI实例
      • 初始化
      • 安装SDK工具包
      • 概述
  • 文档中心
  • arrow
  • 容器实例BCI
  • arrow
  • 操作指南
  • arrow
  • 通过CCE使用BCI
  • arrow
  • 监控
  • arrow
  • 通过VK获取实例监控指标
本页目录
  • 监控指标来源
  • 支持查看的指标
  • 支持的指标:
  • CPU
  • 内存
  • 磁盘
  • 网络
  • GPU指标
  • 支持的标签:
  • 查看指标的方式
  • 通过 VK 查看 BCI 监控指标
  • 通过 Prometheus 采集并查看 BCI 监控指标

通过VK获取实例监控指标

更新时间:2025-08-20

除了通过百度云监控BCM查看 BCI 实例监控指标外,BCI 还支持通过 VK 查看 BCI 实例监控指标。 通过 VK 查看监控指标的方式与 Kubelet 类似,本文将分三部分介绍:

  1. 监控指标来源
  2. 支持查看的指标
  3. 查看指标的方式

监控指标来源

BCI实例监控指标的流向如下图所示 image.png

支持查看的指标

通过VK提供的监控指标是prometheus指标格式,与BCM上看到的指标有较大的差异。vk 提供的监控指标格式如下

Plain Text
1# 指标的帮助说明
2# 指标名称 指标类型
3指标名称{标签,标签,...} 指标取值 指标时间戳
4指标名称{标签,标签,...} 指标取值 指标时间戳
5
6# 指标的帮助说明
7# 指标名称 指标类型
8指标名称{标签,标签,...} 指标取值 指标时间戳
9指标名称{标签,标签,...} 指标取值 指标时间戳

指标分为多类,每一类指标的指标名称和指标类型是都一样的,每一类指标又可分为多条(指标名称一样,标签不一样)。
每条指标都包含指标名称、标签集合、指标取值、指标时间戳四个部分。
如下图示例说明: image.png

支持的指标:

CPU

  • container_cpu_usage_seconds_total:容器创建以来,累计使用cpu的总时间(单位:秒)。

内存

  • container_memory_working_set_bytes:容器正在使用的内存字节数(单位:字节)。使用的内存字节数不包含Page Cache占用的内存空间

磁盘

  • container_fs_reads_bytes_total:容器创建以来,累计从文件系统读取的字节数(单位:字节)。
  • container_fs_writes_bytes_total:容器创建以来,累计写入到文件系统的字节数(单位:字节)。

网络

  • container_network_receive_bytes_total:容器创建以来,累计接收的网络数据字节数(单位:字节)。
  • container_network_receive_packets_total:容器创建以来,累计接收的网络数据IP包数(单位:个)。
  • container_network_transmit_bytes_total:容器创建以来,累计发送的网络数据字节数(单位:字节)。
  • container_network_transmit_packets_total:容器创建以来,累计发送的网络数据IP包数(单位:个)。

GPU指标

目前BCI支持的GPU指标如下:

指标名称 类型 描述 示例值
DCGM_FI_DEV_SM_CLOCK gauge # HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz). 1695
DCGM_FI_DEV_MEM_CLOCK gauge # HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz). 6250
DCGM_FI_DEV_GPU_TEMP gauge # HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C). 56
DCGM_FI_DEV_POWER_USAGE gauge # HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W). 75.738000
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter # HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ). 164108202242
DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter # HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries. 0
DCGM_FI_DEV_GPU_UTIL gauge # HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %). 0
DCGM_FI_DEV_MEM_COPY_UTIL gauge # HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %). 0
DCGM_FI_DEV_ENC_UTIL gauge # HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %). 0
DCGM_FI_DEV_DEC_UTIL gauge # HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %). 0
DCGM_FI_DEV_XID_ERRORS gauge # HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered. 0
DCGM_FI_DEV_FB_FREE gauge # HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB). 5774
DCGM_FI_DEV_FB_USED gauge # HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB). 16957
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter # HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes 0
DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge # HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status 0
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS counter # HELP DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Number of remapped rows for uncorrectable errors 0
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS counter # HELP DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Number of remapped rows for correctable errors 0
DCGM_FI_DEV_ROW_REMAP_FAILURE gauge # HELP DCGM_FI_DEV_ROW_REMAP_FAILURE Whether remapping of rows has failed 0
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE gauge # HELP DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Ratio of cycles the tensor (HMMA) pipe is active (in %). 0.037385
DCGM_FI_PROF_GR_ENGINE_ACTIVE gauge # HELP DCGM_FI_PROF_GR_ENGINE_ACTIVE Ratio of time the graphics engine is active (in %). 0.130759
DCGM_FI_PROF_SM_ACTIVE gauge # HELP DCGM_FI_PROF_SM_ACTIVE The ratio of cycles an SM has at least 1 warp assigned (in %). 0.110320
DCGM_FI_PROF_SM_OCCUPANCY gauge # HELP DCGM_FI_PROF_SM_OCCUPANCY The ratio of number of warps resident on an SM (in %). 0.045643
DCGM_FI_PROF_DRAM_ACTIVE gauge # HELP DCGM_FI_PROF_DRAM_ACTIVE Ratio of cycles the device memory interface is active sending or receiving data (in %). 0.065867
DCGM_FI_PROF_PCIE_TX_BYTES counter # HELP DCGM_FI_PROF_PCIE_TX_BYTES The number of bytes of active pcie tx data including both header and payload. 64522980
DCGM_FI_PROF_PCIE_RX_BYTES counter # HELP DCGM_FI_PROF_PCIE_RX_BYTES The number of bytes of active pcie rx data including both header and payload. 8436715

如您使用CCE的prometheus 监控,在VK的cadvisor接口访问获取指标,需要将CCE原始的cadvisor指标采集任务关闭,因为原始的cadvisor指标只采集的免费的指标;
image1111.png
将cadvisor指标拷贝一份,添加想要采集的DCGM指标,配置如下:

Plain Text
1job_name: 'cadvisor-gpu'
2scheme: https
3tls_config:
4  ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
5  insecure_skip_verify: true
6bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
7metrics_path: /metrics/cadvisor
8kubernetes_sd_configs:
9  - role: node
10relabel_configs:
11  - action: labelmap
12    regex: __meta_kubernetes_node_label_(.+)
13  - source_labels: [ instance ]
14    action: replace
15    target_label: node
16metric_relabel_configs:
17  - source_labels: [__name__]
18    action: keep
19    regex: (machine_(cpu_cores|memory_bytes)|container_(cpu_usage_seconds_total|fs_limit_bytes|fs_reads_bytes_total|
20       fs_usage_bytes|fs_writes_bytes_total|memory_working_set_bytes|network_receive_bytes_total|
21       network_receive_packets_dropped_total|network_receive_packets_total|network_transmit_bytes_total|
22       network_transmit_packets_dropped_total|network_transmit_packets_total)|DCGM_(FI_DEV_GPU_UTIL|FI_DEV_GPU_TEMP|FI_DEV_FB_USED|FI_DEV_FB_FREE|FI_DEV_POWER_USAGE|FI_PROF_SM_ACTIVE|FI_PROF_PCIE_RX_BYTES|FI_PROF_PCIE_TX_BYTES))

支持的标签:

  • container:容器名称
  • id:容器复杂ID
  • image:容器镜像地址
  • name:容器简单ID
  • namespace:Pod所在的名字空间
  • pod:容器所在的Pod
  • device:指标所属的块设备,此标签只在 container_fs_xxx 等几个指标中存在
  • interface:指标所属的网卡设备,此标签只在 container_network_xxx 等几个指标中存在

注意:使用了镜像加速功能的容器,其监控指标中的 image 并非用户原始镜像,而是 {ACCELERATE_PREFIX}/transfer/{ACCOUNT_ID}/{USER_ORIGINAL_IMAGE}_accelerate {ACCELERATE_PREFIX} 镜像加速添加的前缀 {ACCOUNT_ID} 用户的账户ID {USER_ORIGINAL_IMAGE} 用户原始镜像地址

查看指标的方式

通过 VK 查看 BCI 监控指标

通过 VK 查看 BCI 监控指标的方式,与通过 Kubelet 查看 cAdvisor 指标的方式一样,通过如下接口查看

Plain Text
1Host:  {KubeletServer} 
2Port:  10250
3URI:   GET /metrics/cadvisor
4Param:无

通过 vk 查看BCI实例监控指标,示例如下

Plain Text
1./kubectl --kubeconfig={kubeconfig_path} get --raw "/api/v1/nodes/{vk_bci_kubelet_name}/proxy/metrics/cadvisor"
2// {vk_bci_kubelet_name} vk 的 nodeName

通过 Prometheus 采集并查看 BCI 监控指标

通过 Prometheus 采集存储 BCI实例监控指标,简单配置(prometheus.yml)如下

Plain Text
1global:
2  scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
3  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
4  # scrape_timeout is set to the global default (10s).
5
6# Alertmanager configuration
7alerting:
8  alertmanagers:
9    - static_configs:
10        - targets:
11          # - alertmanager:9093
12
13# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
14rule_files:
15  # - "first_rules.yml"
16  # - "second_rules.yml"
17
18# A scrape configuration containing exactly one endpoint to scrape:
19# Here it's Prometheus itself.
20scrape_configs:
21  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
22  - job_name: "prometheus"
23    static_configs:
24      - targets: ["localhost:9090"]
25  - job_name: "cadvisor"
26    static_configs:
27    - targets: ['47.92.228.38:10250']  // 此处 47.92.228.38 是 vk 因特网可访问的 ip,10250 是 vk 的 https server 端口(注意不是 http)
28    scheme: https
29    metrics_path: /metrics/cadvisor
30    tls_config:
31      insecure_skip_verify: true    // 作为一个demo示例,关闭 tls 协议
32    authorization:
33      credentials_file: /home/work/prometheus/token  // 可以正常访问 node server 的 bearer token
34    relabel_configs:
35      - action: labelmap
36        regex: __meta_kubernetes_node_label_(.+)
  • targets:vk 的 ip:port,注意该 ip 是需要能够被 prometheus 访问的,port 是 kubelet 对外暴露 /metrics/cadvisor 接口的端口(一般是10250)
  • credentials_file:有访问 node 权限的 service account 的 token;
    启动命令
Plain Text
1./prometheus --config.file="prometheus.yml"

上一篇
查看实例监控指标
下一篇
镜像