CCE GPU Manager 说明

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
所有文档
menu
没有找到结果,请重新输入

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
  • 文档中心
  • arrow
  • 容器引擎CCE
  • arrow
  • 操作指南
  • arrow
  • 组件管理
  • arrow
  • CCE GPU Manager 说明
本页目录
  • 组件介绍
  • 组件功能
  • 使用场景
  • 限制说明
  • 安装组件
  • 版本记录

CCE GPU Manager 说明

更新时间:2025-08-21

组件介绍

一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。CCE GPU Manager组件支持隔离最优型,可支持算力和显存的共享与隔离。

组件功能

  • 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
  • GPU 共享:提供为节点上的 GPU 设备开启显存共享功能,支持将 GPU 卡按显存大小分配给多个 Pod。
  • 显存和算力隔离:多 Pod 共享单张 GPU 卡时进行显存和算力级别的隔离。
  • 精细化调度:开启精细化调度后,创建队列和任务时均支持选择具体的GPU型号。关闭精细化调度后创建队列和容器时仅支持输入配额,不支持选择具体的GPU型号。
  • 编解码实例:提交编解码任务,使用GPU独立的编解码单元进行硬件编/解码。
  • 组件详细使用说明请参照:GPU独占和共享说明

使用场景

在 CCE 集群中运行 GPU 应用时,可以解决 AI 训练等场景中独占整张卡造成资源浪费的情况,从而提高资源的使用率,降低成本。

限制说明

  • 支持 v1.18 及以上版本的 Kubernetes 集群。
  • 目前该组件依赖于 CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。
  • GPU 共享虚拟化目前适配了以下主流的GPU CUDA和Driver版本,其中隔离最优型对操作系统内核版本等有额外的要求。如您有其他版本适配需求请提交工单。目前支持情况具体如下。
配置 版本
容器运行时 Docker、Containerd
GPU CUDA/Driver版本
  • GPU Driver 470.X,515.X,525.X

  • 操作系统内核版本(仅隔离最优型) CentOS:
  • 3.10.0-957.21.3.el7.x86_64
  • 3.10.0-1160.41.1.el7.x86_64
  • 3.10.0-1160.42.2.el7.x86_64
  • 3.10.0-1160.45.1.el7.x86_64
  • 3.10.0-1160.62.1.el7.x86_64
  • 3.10.0-1160.71.1.el7.x86_64
  • 3.10.0-1160.76.1.el7.x86_64
  • 3.10.0-1160.80.1.el7.x86_64
  • 3.10.0-1160.81.1.el7.x86_64
  • 3.10.0-1160.83.1.el7.x86_64
  • 3.10.0-1160.88.1.el7.x86_64
  • 3.10.0-1160.90.1.el7.x86_64
  • 4.17.11-1.el7.elrepo.x86_64
  • 5.4.123-1.el7.elrepo.x86_64

    Ubuntu:
  • 4.4.0-150-generic
  • 4.15.0-140-generic
  • 5.4.0-72-generic
  • 5.4.0-139-generic
  • 安装组件

    1. 登录百度智能云官网,并进入管理控制台。
    2. 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
    3. 单击左侧导航栏中的 集群管理 > 集群列表 。
    4. 在集群列表页面中,单击目标集群名称进入集群管理页面。
    5. 在集群管理页面单击 运维与管理 > 组件管理 。
    6. 在组件管理列表中选择 CCE GPU Manager 组件单击"安装"。
    7. 在确认安装弹出框中默认选择隔离最优型。
    8. GPU显存共享单位默认选择GiB。
    9. 精细化调度默认开启。
    10. 点击“确认”按钮完成组件的安装。

    截屏2024-07-11 下午6.21.56.png

    版本记录

    版本号 适配集群版本 更新时间 变更内容 影响
    1.5.35 CCE v1.18+ 2024.07.05 新功能:
  • Pod申请虚拟化资源用法调整,支持仅申请虚拟化资源描述符,去除baidu.com/xx_xx_cgpu描述符约束
    优化:
  • RDAM机型的BCC套餐适配,支持NCCL通信库自动感知单机GPU和网卡的拓扑关系
  • 适配H芯片调度器分卡,获取设备信息的依赖由cuda改变为nvml
    缺陷修复:
  • 【影响业务】修复PaddleJob的数据备份功能,修复备份概率失败问题
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.34 CCE v1.18+ 2024.06.24 优化:
  • container-runtime 适配 VPC-ENI 网络模式下宿主机网络容器的 nccl 环境变量注入
    缺陷修复:
  • 因影响通信性能 dcgm-exporter 默认不采集 FP16/FP32/FP64 指标;
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.33 CCE v1.18+ 2024.05.31 新功能:
  • 新增多调度器GPU分卡信息识别服务,识别默认调度器等其他调度器分配的 GPU 卡号信息,避免节点被多种调度器混调;
  • IB环境默认开启自适应路由;
    优化:
  • 虚拟化webhook支持高可用;
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.32 CCE v1.18+ 2024.05.15 新功能:
  • 支持集群内两种虚拟化模式共存;
  • 支持BCC RDMA拓扑文件的自动注入;
    优化:
  • GPU虚拟化的隔离性最优型中容器优化残留问题;
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.31 CCE v1.18+ 2024.05.06 新功能:
  • 新增GFD模块
  • 支持GPU节点驱动&Cuda等环境信息上报至节点;
  • 隔离最优型GPU虚拟化支持L20芯片;
  • 支持 eks 模式的 hook 注入
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.30 CCE v1.18+ 2024.03.26 新功能:
  • 适配bcc H800机型识别rdma拓扑
    修复:
  • 一组镜像漏洞修复;
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.29 CCE v1.18+ 2024.01.19 新功能:
  • dcgm-exporter 新增nvlink带宽、sm利用率、FP64/32/16计算利用率指标
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.28 CCE v1.18+ 2023.12.15 新功能:
  • 支持NCCL环境变量适配不同的GPU卡类型,A100/A800使用NCCL_IB_QPS_PER_CONNECTION=8、NCCL_IB_ADAPTIVE_ROUTING=0,H800使用NCCL_IB_QPS_PER_CONNECTION=1、NCCL_IB_ADAPTIVE_ROUTING=1
    优化:
  • dp健康检查端口设置为可修改的参数,且取消GPU虚拟化之隔离性最优型的dp健康检查
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.27 CCE v1.18+ 2023.12.1 优化:
  • GPU虚拟化增加内核日志,打印GPU虚拟化显存OOM显存统计信息
  • GPU虚拟化容器残留优化,提高GPU虚拟化的容器清理的效率,容器侧兼容容器创建/容器残留等多场景,内核模块增加GPU虚拟化清理
  • GPU虚拟化的容器残留增加指标,体现GPU虚拟化残留
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.26 CCE v1.18+ 2023.11.17 新功能:
  • 适配 Kubernetes 1.26
  • 适配 Ubuntu 22.04 操作系统
    优化:
  • 增加了 GPU虚拟化 支持内核版本的补全
  • dp组件增加健康检查,兼容kubelet重启/访问apiserver失败等场景
    缺陷修复:
  • 【影响业务】修复由于节点同时安装 docker 和 containerd 造成的 dcgm exporter 和 gpu exporter 无容器信息上报问题
  • 【影响业务】修复由于 systemd 路径解析错误造成的 container-runtime 分配 GPU 卡和 RDMA 配置无效的错误
  • 【影响业务】修复由于 systemd 路径解析错误造成的 gpu exporter 无法获取容器信息的错误
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.25 CCE v1.18+ 2023.11.03 新功能:
  • 支持GPU 虚拟化内核态 535 驱动
  • 支持4090芯片的独占卡/共享卡模式
    优化:
  • GPU虚拟化之隔离性最优型 初始化优化:
    增加对节点的 sgpu.ko 内核前置检查:增加残留模块版本校验以及残留无效模块删除重装
  • 增加了 GPU虚拟化 容器的 GC 模块,实现了残留的残留的 GPU虚拟化 配置清理
  • 优化 container-runtime-sgpu-hook prestart/poststop 的异常流程,修改流程为配置失败时,返回错误信息
    缺陷修复:
  • 【影响业务】修复由于 container-runtime 没有区分 container 获取 pod 的 resource 导致单 Pod 多容器分配错卡的问题
  • 【影响业务】修复由于组件升级过程中,install.sh 进程退到了内核态导致的 DCGM pod 一直处于 Terminating 状态,不能删除
  • 【影响业务】修复由于 runtime 默认 lib-path 在操作系统Ubuntu 20中不生效造成的任务启动报错
  • 【影响业务】修复 CUDA Driver 525 驱动环境下,性能最优型GPU虚拟化 共享卡的 libcuda.so 劫持无效的问题
    限制:
  • 不支持创建使用 性能最优型GPU虚拟化 共享卡以 NCCL 进行通信的 DDP 训练任务
  • GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级
    1.5.24 CCE v1.18+ 2023.09.22 新功能:
  • 支持单容器使用多共享卡功能
    缺陷修复:
  • 解决虚拟化场景监控指标获取失败问题
    使用限制:
  • 当前版本为1.5.14及以下时,若开启性能最优型GPU虚拟化能力,需要停止虚拟化任务,升级组件
  • 当前版本为1.5.13及以下时,若开启隔离最优型GPU虚拟化能力,需要停止虚拟化任务,升级组件
  • 1.5.23 CCE v1.18+ 2023.08.29 优化:
  • 默认配置NCCL_DEBUG日志必要的子系统,NCCL_DEBUG_SUBSYS由ENV改为INIT,ENV,GRAPH
    使用限制:
  • 当前版本为1.5.14及以下时,若开启性能最优型GPU虚拟化能力,需要停止虚拟化任务,升级组件
  • 当前版本为1.5.13及以下时,若开启隔离最优型GPU虚拟化能力,需要停止虚拟化任务,升级组件
  • 1.5.22 CCE v1.18+ 2023.08.10 缺陷修复:
  • 修正并发创建虚拟化容器时,偶发虚拟化显存和算力资源的分配错误问题
    使用限制:
  • 当前版本为1.5.14及以下时,若开启性能最优型GPU虚拟化能力,需要停止虚拟化任务,升级组件
  • 当前版本为1.5.13及以下时,若开启隔离最优型GPU虚拟化能力,需要停止虚拟化任务,升级组件
  • 上一篇
    CCE Ingress Controller 说明
    下一篇
    CCE Backup Controller 说明