一般类问题

更新时间：2025-08-21

1、NVIDIA 深度学习开发卡应该使用哪种驱动？

请在Nvidia官网按照下图的选项进行驱动下载：

2、GPU云服务器支持的显卡型号有哪些？

关于GPU的显卡型号，GPU云服务支持多种GPU型号和实例规格，您可以参考GPU云服务器实例规格族。

3、GPU服务器是否有GPU卡状态监控和报警机制，包括GPU使用率、内存使用率、温度、状态等？

登录百度智能云控制台选择云服务器BCC，点击实例进入实例列表页面。
选择需要监控的实例名称，进入实例详情页面，然后点击监控按钮进入监控详情页面。
在监控详情页面的最下侧，找到扩展监控项，然后选择GPU后，即可看到GPU卡的监控信息。

4、系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样，应该以哪个为准？

您执行命令nvidia-smi查询到的CUDA版本代表CUDA Driver版本，此版本是驱动指定，您指定的CUDA 版本通常为CUDA Runtime版本，可通过在操作系统中通过nvcc --version 查看，绝大部分的应用依赖Runtime版本。

5、GPU实际无负载，但使用 nvidia-smi 查看GPU利用率时显示100%

Tesla系列GPU卡提供ECC功能，当GPU云服务器加载GPU驱动时，因 ECC Memory Scrubbing 机制存在，概率出现GPU利用率显示100%情况。遇到此情况时，需要用户在root权限下，执行 nvidia-smi -pm 1 命令，让GPU Driver 进入 Persistence 模式，从而解决此问题。

root@instance-xxxxxxxx:~# nvidia-smi -pm 1

6、怎么变更GPU实例的实例规格

GPU云服务器的变更策略如下：支持同规格族同GPU型号的实例规格进行规格升配，暂不支持带本地盘的实例以及A100实例变配。

具体操作为：

1、登录BCC云服务器控制台 2、在需要编配的实例操作栏中，选择更多->实例设置->配置变更 3、选择目标变配的配置

7、购买GPU实例后，通过nvidia-smi获取的显存规格少于标称规格

GPU默认开启了ECC（error correcting code，错误检查和纠正）功能，用来检查和纠正可能会在数据传输和存储过程中引发的比特错误，开启时会使可用显存减少，并伴随部分性能损失。为提高数据的正确性，建议您保持开启状态。

8、按量付费/后付费的GPU实例是否支持关机不计费

对于后付费的GPU云服务器实例，关机不计费的限制如下:

支持不带本地盘的实例开启关机不计费。
GN5系列A100 GPU实例暂不支持关机不计费。
特别提示: 选择关机不计费后，再次开机可能遇到因资源售罄导致的启动失败，请谨慎选择该选项。

具体操作为：在实例操作列表中的实例状态选择停止，并在弹出的页面中选择关机不计费，如果选择关机选项，则实例仍正常计费。

9、普通云服务是否支持变配GPU云服务器，或者GPU云服务器是否支持跨规格族，跨不同卡变配

不支持。

10、为什么购买GPU实例后，执行命令nvidia-smi找不到GPU显卡？

当您执行命令nvidia-smi无法找到GPU显卡时，通常是由于您的GPU实例未安装或者未成功安装NVIDIA驱动。请根据您所购买的GPU实例规格选择对应的操作指引来安装驱动，具体说明如下：https://cloud.baidu.com/doc/GPU/s/Sllz3tvfi

如何检测RDMA常见故障

如何检测GPU常见故障

GPU云服务器 GPU

GPU云服务器 GPU

一般类问题