查看GPU云服务器监控

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
所有文档
menu
没有找到结果,请重新输入

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
  • 文档中心
  • arrow
  • GPU云服务器GPU
  • arrow
  • 操作指南
  • arrow
  • 查看GPU云服务器监控
本页目录
  • GPU监控
  • RDMA监控
  • GPU扩展监控

查看GPU云服务器监控

更新时间:2025-08-21

对比BCC云服务器,GPU云服务器中包含额外的硬件,例如GPU卡以及RDMA网卡。GPU云服务器支持对这些硬件资源进行监控,相关的监控指标项可在云产品指标列表中查询。以下为如何查看GPU实例的监控数据。

GPU监控和GPU扩展监控依赖实例已安装了GPU驱动,如何安装GPU驱动可参考 GPU创建。

GPU监控

  1. 选择“产品服务>云监控BCM”,左侧侧边栏选择云产品监控并选择云服务器BCC。

image.png

  1. 选择您需要查看监控数据的实例,点击GPU卡监控页面,在此页面可以查看GPU卡监控。

image.png

RDMA监控

  1. 选择“产品服务>云监控BCM”,左侧侧边栏选择云产品监控并选择云服务器BCC。

image.png

  1. 选择您需要查看监控数据的实例,点击RDMA网卡监控页面,在此页面可以查看RDMA网卡监控。

image.png

GPU扩展监控

如标准的GPU监控项无法满足您的数据采集需求,GPU云服务器可提供额外的GPU监控项。由于GPU扩展监控项会带来较高的工作负载,请您结合业务情况按需开启。以下为如何查看GPU实例的GPU扩展监控数据。

  1. 选择“产品服务>云监控BCM”,左侧侧边栏选择云产品监控并选择云服务器BCC。

image.png

  1. 选择您需要查看监控数据的实例,点击GPU卡监控页面,在此页面可以查看GPU扩展监控。 image.png

GPU扩展监控依赖3.0以上的DCGM组件,可登录实例并通过以下命令查看dcgmi版本

Plain Text
1dcgmi --version

通过以下命令启动相关服务:

Plain Text
1nv-hostengine
2systemctl restart bcm-agent

回显如下: image.png

如果当前实例未安装dcgm组件,您可选择以下的方式之一安装:

方法一:通过BCC控制台自选GPU驱动安装

在创建实例或者重装实例时,如您选择了公共镜像和自选GPU驱动,系统会自动帮您安装DCGM组件。

Plain Text
1请选择安装450版本以上的驱动以获取符合要求的dcgm版本

方法二:通过云助手安装

登录云助手控制台并 选择执行安装Nvidia DCGM

image.png

上一篇
镜像使用
下一篇
申请GPU物理服务器