如何检测RDMA常见故障

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
所有文档
menu
没有找到结果,请重新输入

GPU云服务器 GPU

  • 线上GPU驱动选装发布记录
  • 快速入门
  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 产品介绍
    • 应用场景
    • GPU卡详情
    • 实例规格
      • GPU渲染型
      • 弹性高性能计算集群
      • GPU计算型
      • GPU实例命名规则
  • AI加速套件AIAK
    • AIAK推理加速组件
  • 典型实践
    • 基于Nvidia Clara Parabricks的基因测序加速
    • 基于GPU云服务器部署NIM
    • NCCL环境搭建
    • 使用TensorRT加速深度学习推理
    • 使用Nsight工具分析优化应用程序
    • 使用RAPIDS加速数据科学任务
    • 部署满血版DeepSeek-R1模型SGlangServer(单机&多机部署&参数建议)
    • 搭建PaddlePaddle环境完成文本情感分类
    • 基于GPU实例部署NGC环境
  • 操作指南
    • 镜像使用
    • 查看GPU云服务器监控
    • 申请GPU物理服务器
    • 创建GPU实例
    • 数据上传
    • 管理GPU实例
    • 安装GPU驱动
      • 为GPU实例安装GRID驱动(Windows)
      • 手动安装GPU驱动以及Cuda(Windows)
      • 手动安装GPU驱动以及Cuda(Linux)
      • 自动安装GPU驱动及CUDA(推荐)
  • 常见问题
    • 如何检测RDMA常见故障
    • 一般类问题
    • 如何检测GPU常见故障
  • 文档中心
  • arrow
  • GPU云服务器GPU
  • arrow
  • 常见问题
  • arrow
  • 如何检测RDMA常见故障
本页目录
  • 网卡状态检测
  • 网卡抖动检测
  • 网卡配置检测
  • mtu检测
  • ip地址检测

如何检测RDMA常见故障

更新时间:2025-08-21

在GPU云服务器使用过程中可能会出现RDMA硬件故障或者亚健康状态,如果您发现应用程序出现报错或者RDMA硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例等方式修复,如果问题持续发生,请您提交工单。

网卡状态检测

您可通过以下检测方法,判断当前实例是否存在网卡状态故障。

检测步骤

  1. 登录实例。
  2. 查询所有RDMA网卡的接口状态,执行命令:
Plain Text
1ibdev2netdev |grep -v eth0

image.png

  1. 查看是否有接口处于Down状态,如下eth2接口处于Down状态:

WX20230817-195837.png

解决方法

  • centos、rocky、baidulinux系统,请尝试使用如下命令恢复:
Plain Text
1bash /var/lib/cloud/scripts/per-boot/bcc_elastic_net_centos_cloudinit.sh
  • ubuntu系统,请尝试使用如下命令恢复:
Plain Text
1bash /var/lib/cloud/scripts/per-boot/bcc_elastic_net_ubuntu_cloudinit.sh

如果运行命令后没有恢复,请提交工单。

网卡抖动检测

您可通过以下检测方法,判断当前实例是否存在网卡抖动。

检测步骤

  1. 登录实例。
  2. 查询所有RDMA网卡的接口名称,执行命令:
Plain Text
1show_gids |grep v2|awk '{print $7}'|sed '/^$/d'|grep -v eth0
  1. 依次查询每个RDMA网卡Link down的次数,执行命令:
Plain Text
1dmesg -T | grep -i eth|grep -i link|grep -i down|wc -l
2journalctl --since `date -d "10 days ago" "+%Y-%m-%d"`| grep -i eth|grep -i link|grep -i down|wc -l
  1. 次数大于阀值8,说明网卡抖动。

解决方法

请提交工单。

网卡配置检测

您可依次检测以下几项,判断当前实例是否存在网卡配置故障。

mtu检测

检测步骤

  1. 登录实例。
  2. 查询所有RDMA网卡的接口名称,执行命令:
Plain Text
1show_gids |grep v2|awk '{print $7}'|sed '/^$/d'|grep -v eth0

img

  1. 依次查询每个RDMA网卡的mtu,执行命令:
Plain Text
1ip -4 -j -p addr show dev ${ifname}|grep mtu

img

  1. mtu值不等于预期值。

解决方法

请提交工单。

ip地址检测

检测步骤

  1. 登录实例。
  2. 查询所有RDMA网卡的接口名称,执行命令:
Plain Text
1show_gids |grep v2|awk '{print $7}'|sed '/^$/d'|grep -v eth0
  1. 依次查询每个RDMA网卡的IP地址,执行命令:
Plain Text
1ip -4 -j -p addr show dev ${ifname}|grep local

img

  1. 如果输出没有结果。

解决方法

请提交工单。

上一篇
操作指南
下一篇
一般类问题