自定义加速卡算力指标采集

更新时间：2025-08-21

功能简介

智能边缘BIE支持了多种边缘AI加速卡显存使用情况指标采集。针对当前未支持的AI加速卡种类，BIE提供了自定义AI加速卡算力采集的功能。

本教程提供了自定义监控应用的开发与部署规范，您可以根据文档规范，开发自定义AI加速卡算力采集应用，并将指标采集集成到BIE的指标采集系统中，在云端对AI算力进行监控。

自定义监控应用开发规范

用户可自行开发指标采集部分。完成指标采集后，需要将数据以指定的数据格式暴露在如下API。baetyl-core会从该api中拉去数据，并同步至云端。

api说明

方法	api	说明
GET	/v1/collect	暴露指标数据的api

数据格式要求

Plain Text

1// 采集pod 返回指标结构，nodeName可以通过环境变量KUBE_NODE_NAME获取
2map[nodeName]interface{}{}
3// 每个节点的指标结构
4type GpuInfo struct {
5    DeviceNum   uint         `json:"deviceNum"`
6    Devices     []DeviceInfo `json:"devices"`
7    UsedMemory  uint64       `json:"usedMemory"`    // 加速卡的显存使用量，若存在多卡，则需要累加
8    TotalMemory uint64       `json:"totalMemory"`   // 加速卡的显存总量，若存在多卡，则需要累加
9    Percent     float64      `json:"percent"`       // 加速卡的显存使用率，若存在多卡，累加后计算
10}
11// 每个加速卡子卡的信息，目前只包括支持的加速卡类型指标，其中UsedMemory TotalMemory Percent为单卡的显存使用指标，为通用指标
12type DeviceInfo struct {
13    UsedMemory    uint64  `json:"usedMemory"`
14    TotalMemory   uint64  `json:"totalMemory"`
15    Percent       float64 `json:"percent"`
16}

部署要求

负载参数要求

参数	规范要求	说明
负载类型	Deployment/DaemonSet	负载类型取决于用户边缘节点的类型是单机或集群，并且集群哪些节点存在加速卡
命名空间	baetyl-edge-system	边缘服务的系统应用命名空间，必须在该命名空间下创建应用
标签	baetyl-service-name: baetyl-accelerator-metrics	用于服务发现的系统标签，必须携带
环境变量	KUBE_NODE_NAME:spec.nodeName	用于组织最终指标数据的map key，即当前节点名

注意：由于监控应用必须得部署在baetyl-edge-system的命名空间下，因此当前不支持直接从BIE云端下发该应用。需要在边缘以kubectl apply的方式手动进行运行。

DemoApp示例

该demoapp仅返回固定指标，并未真实采集算力信息。

Plain Text

1apiVersion: apps/v1
2kind: Deployment
3metadata:
4  name: test-app
5  namespace: baetyl-edge-system  # 命名空间
6  labels:
7    app: test-app
8spec:
9  replicas: 1
10  selector:
11    matchLabels:
12      app: test-app
13      baetyl-service-name: baetyl-accelerator-metrics
14  template:
15    metadata:
16      labels:
17        app: test-app
18        baetyl-service-name: baetyl-accelerator-metrics  # 标签，必带
19    spec:
20      containers:
21      - name: test-app
22        image: baetyltechtest/baetyl-metrics-test:v1.0 # demo app,打桩返回固定指标
23        env:
24        - name: KUBE_NODE_NAME     # 环境变量，必带
25          valueFrom:
26            fieldRef:
27              apiVersion: v1
28              fieldPath: spec.nodeName # k8s节点名

demo app固定返回指标：

Plain Text

1{
2    "docker-desktop": {   # node name
3        "deviceNum": 2,
4        "devices": [
5            {
6                "percent": 0.1,
7                "totalMemory": 1000,
8                "usedMemory": 100
9            },
10            {
11                "percent": 0.1008991008991009,
12                "totalMemory": 1001,
13                "usedMemory": 101
14            }
15        ],
16        "percent": 0.10044977511244378,
17        "totalMemory": 2001,
18        "usedMemory": 201
19    }
20}