自动安装GPU驱动及CUDA(推荐)

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
所有文档
menu
没有找到结果,请重新输入

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
  • 文档中心
  • arrow
  • GPU云服务器GPU
  • arrow
  • 操作指南
  • arrow
  • 安装GPU驱动
  • arrow
  • 自动安装GPU驱动及CUDA(推荐)
本页目录
  • 通过控制台勾选自定义GPU驱动安装驱动
  • 创建GPU实例
  • 重装GPU实例
  • 通过控制台或API的数据注入安装驱动
  • 查看自定义GPU驱动安装进展
  • 配置BCM事件通知

自动安装GPU驱动及CUDA(推荐)

更新时间:2025-08-21

GPU的驱动和CUDA是使用GPU计算的必备组件。您在使用GPU云服务器的过程中,可实现自动为GPU实例安装驱动及CUDA。

通过控制台勾选自定义GPU驱动安装驱动

创建GPU实例

请参考创建实例,并按照向导选择安装GPU驱动。该操作会自动帮助您安装GPU驱动、CUDA、Cudnn、DCGM以及Fabric manager(如果GPU包含NVSwitch)。

重装GPU实例

您可通过重装实例为已经运行中的实例安装或更新所需要的GPU驱动,操作如下:

登录云服务器控制台,并为需要安装或者更新GPU驱动的实例点击重装。 image.png

在弹窗中选择需要的公共镜像的操作系统,并勾选安装GPU驱动,选择需要的版本。 image.png

通过控制台或API的数据注入安装驱动

在创建、重装实例时可以通过注入如下的安装脚本实现安装GPU驱动:

API数据注入参数: image.png 控制台数据注入入口: image.png

脚本内容,替换如下脚本中的DRIVER_VERSION,CUDA_VERSION,CUDNN_VERSION参数为所需要的版本号,建议您参考建议安装的GPU驱动列表选择版本:

Plain Text
1#!/bin/bash
2DRIVER_VERSION="535.216.03"
3CUDA_VERSION="12.5.1"
4CUDNN_VERSION="9.6.0"
5WORK_DIR="/root/auto_install"
6SCRIPT_URL="http://mirrors.baidubce.com/nvidia-binary-driver/api/auto_install.sh"
7
8mkdir ${WORK_DIR}
9pushd ${WORK_DIR}
10for ((i=0; i<120; i++))
11do
12    wget --timeout=10 -t 10 ${SCRIPT_URL}
13    if [ $? -eq 0 ]; then
14        break
15    else
16        sleep 1
17    fi
18done
19bash ${WORK_DIR}/$(basename ${SCRIPT_URL}) ${DRIVER_VERSION} ${CUDA_VERSION} ${CUDNN_VERSION}
20popd
21rm -rf ${WORK_DIR}
22
23cmdline=$(cat /proc/cmdline)
24if [[ "${cmdline}" =~ "pci=realloc" ]]; then
25    echo "remove 'pci=realloc' cmdline arg and update grub"
26    default_grub_arg="/etc/default/grub"
27    sed -i 's/pci=realloc//g' ${default_grub_arg}
28    if command -v grub2-mkconfig; then
29        efi_grub_cfg=/boot/efi/EFI/centos/grub.cfg
30        if [ -f /boot/efi/EFI/rocky/grub.cfg ]; then
31            efi_grub_cfg=/boot/efi/EFI/rocky/grub.cfg
32        fi
33        grub2-mkconfig -o $efi_grub_cfg
34    fi
35    if command -v update-grub; then
36        update-grub
37    fi
38    reboot
39else
40    echo "there is no 'pci=realloc' arg in current cmdline, do nothing"
41fi

查看自定义GPU驱动安装进展

在实例状态变为运行中后,登录实例可通过以下命令查看当前安装GPU驱动的进展:

Plain Text
1cat install_info.log

看到如下的安装提示后,可通过nvidia-smi检查驱动是否正常工作。 image.png

Plain Text
1注意:安装过程中请避免执行重启实例、重装实例等涉及实例关机的操作,否则安装无法完整执行

配置BCM事件通知

如您的业务系统需要自动化获取GPU驱动安装状态,可订阅BCM事件中的驱动安装成功并配置报警策略实现,系统将在实例中的GPU驱动安装完成后推送此事件。

image.png

上一篇
手动安装GPU驱动以及Cuda(Linux)
下一篇
常见问题