一般类问题

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
所有文档
menu
没有找到结果,请重新输入

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
  • 文档中心
  • arrow
  • GPU云服务器GPU
  • arrow
  • 常见问题
  • arrow
  • 一般类问题

一般类问题

更新时间:2025-08-21

1、NVIDIA 深度学习开发卡应该使用哪种驱动?

请在Nvidia官网按照下图的选项进行驱动下载:

2、GPU云服务器支持的显卡型号有哪些?

关于GPU的显卡型号,GPU云服务支持多种GPU型号和实例规格,您可以参考GPU云服务器实例规格族。

3、GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?

  1. 登录百度智能云控制台选择云服务器BCC,点击实例进入实例列表页面。
  2. 选择需要监控的实例名称,进入实例详情页面,然后点击监控按钮进入监控详情页面。
  3. 在监控详情页面的最下侧,找到扩展监控项,然后选择GPU后,即可看到GPU卡的监控信息。

4、系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样,应该以哪个为准?

您执行命令nvidia-smi查询到的CUDA版本代表CUDA Driver版本,此版本是驱动指定,您指定的CUDA 版本通常为CUDA Runtime版本,可通过在操作系统中通过nvcc --version 查看,绝大部分的应用依赖Runtime版本。

5、GPU实际无负载,但使用 nvidia-smi 查看GPU利用率时显示100%

Tesla系列GPU卡提供ECC功能,当GPU云服务器加载GPU驱动时,因 ECC Memory Scrubbing 机制存在,概率出现GPU利用率显示100%情况。遇到此情况时,需要用户在root权限下,执行 nvidia-smi -pm 1 命令,让GPU Driver 进入 Persistence 模式,从而解决此问题。

root@instance-xxxxxxxx:~# nvidia-smi -pm 1

6、怎么变更GPU实例的实例规格

GPU云服务器的变更策略如下: 支持同规格族同GPU型号的实例规格进行规格升配,暂不支持带本地盘的实例以及A100实例变配。

具体操作为:

1、登录BCC云服务器控制台 2、在需要编配的实例操作栏中,选择更多->实例设置->配置变更 3、选择目标变配的配置

7、购买GPU实例后,通过nvidia-smi获取的显存规格少于标称规格

GPU默认开启了ECC(error correcting code,错误检查和纠正)功能,用来检查和纠正可能会在数据传输和存储过程中引发的比特错误,开启时会使可用显存减少,并伴随部分性能损失。为提高数据的正确性,建议您保持开启状态。

8、按量付费/后付费的GPU实例是否支持关机不计费

对于后付费的GPU云服务器实例,关机不计费的限制如下:

  • 支持不带本地盘的实例开启关机不计费。
  • GN5系列A100 GPU实例暂不支持关机不计费。
  • 特别提示: 选择关机不计费后,再次开机可能遇到因资源售罄导致的启动失败,请谨慎选择该选项。

具体操作为: 在实例操作列表中的实例状态选择停止,并在弹出的页面中选择关机不计费,如果选择关机选项,则实例仍正常计费。

9、普通云服务是否支持变配GPU云服务器,或者GPU云服务器是否支持跨规格族,跨不同卡变配

不支持。

10、为什么购买GPU实例后,执行命令nvidia-smi找不到GPU显卡?

当您执行命令nvidia-smi无法找到GPU显卡时,通常是由于您的GPU实例未安装或者未成功安装NVIDIA驱动。请根据您所购买的GPU实例规格选择对应的操作指引来安装驱动,具体说明如下:https://cloud.baidu.com/doc/GPU/s/Sllz3tvfi

上一篇
如何检测RDMA常见故障
下一篇
如何检测GPU常见故障