CCE AI Job Scheduler 说明

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
所有文档
menu
没有找到结果,请重新输入

容器引擎 CCE

  • 功能发布记录
  • 产品描述
    • 介绍
    • 优势
    • 使用限制
    • 应用场景
    • 核心概念
    • 特性
  • 开发指南
    • EFK日志采集系统部署指南
    • 创建LoadBalancer类型的Service
    • Prometheus监控系统部署指南
    • kubectl管理配置
    • 在CCE集群中使用-Network-Policy
  • 常用工具
    • 视图命令行场景示例
  • 产品公告
    • CCE 新版集群管理发布公告
    • CCE 控制台升级公告
    • Kubernetes 版本发布说明
      • CCE发布Kubernetes 1.18版本说明
      • CCE发布Kubernetes 1.30版本说明
      • CCE Kubernetes 版本更新说明
      • CCE发布Kubernetes 1.22版本说明
      • CCE发布Kubernetes 1.20版本说明
      • CCE发布Kubernetes 1.28版本说明
      • CCE发布Kubernetes 1.24版本说明
      • CCE发布Kubernetes 1.26版本说明
    • 安全漏洞修复公告
      • 漏洞CVE-2020-14386修复公告
      • 修复漏洞CVE-2021-30465公告
      • 漏洞CVE-2019-5736修复公告
      • 漏洞CVE-2025-1097、CVE-2025-1098等修复公告
      • 关于 runc 的安全问题(CVE-2024-21626)影响声明
  • 快速入门
    • 快速部署nginx应用
    • 使用CCE容器引擎流程概述
  • 典型实践
    • CCE集群网络说明及规划
    • CCE典型实践之容器网络模式选择
    • Pod异常问题排查
    • 通过 CCE Ingress 实现虚机和容器服务的统一接入
    • CCE集群使用Jenkins持续发布
    • CCE-访问公网实践
    • Linux系统配置常用参数说明
    • 用户使用自定义 CNI 插件方法
    • CCE典型实践之Guestbook搭建
    • 使用KMS对etcd数据加密
    • 添加CGroup V2节点
    • CCE容器运行时选择
    • CCE使用检查清单
    • VPC-ENI模式集群访问公网实践
    • 利用 Velero 实现将应用跨云迁移到 百度CCE
    • 使用 CNI 配置容器内网络参数
    • CCE Resource Recommender 用户文档
    • CCE集群中使用私有镜像实践
    • 云原生AI
      • 使用 CCE AITraining Operator 实现弹性容错训练
      • 部署 TensorFlow Serving 推理服务
      • GPU虚拟化之隔离性最优型的最佳实践
  • 操作指南
    • 多用户访问控制
    • 使用须知
    • 命名空间管理
      • 设置资源配额
      • 设置资源限制
      • 命名空间基本操作
    • 弹性伸缩
      • 使用 cce-autoscaling-placeholder 实现秒级弹性伸缩
      • CCE 集群节点自动伸缩
      • 容器定时水平伸缩(CronHPA)
      • 容器水平伸缩(HPA)
    • 存储管理
      • 使用云盘CDS
      • 使用并行文件存储PFS
      • 使用对象存储BOS
      • 使用并行文件存储PFS L2
      • 使用本地存储
      • 使用数据湖存储加速工具RapidFS
      • 使用文件存储CFS
      • 概述
    • 节点管理
      • 移出节点
      • kubelet容器监控只读端口风险提示
      • 管理污点
      • 设置GPU显存共享
      • 添加节点
      • 自定义Kubelet参数
      • 设置节点封锁
      • 节点排水
      • 管理节点标签
    • 组件管理
      • CCE CSI BOS Plugin 说明
      • Kube Scheduler 说明文档
      • CCE CSI PFS L2 Plugin
      • CCE NodeLocal DNSCache 说明
      • CCE Ingress NGINX Controller 说明
      • CCE RDMA Device Plugin 说明
      • CCE Node Problem Detector 说明
      • CCE Credential Controller 说明
      • Kube Controller Manager 说明
      • CCE Ingress Controller 说明
      • CCE GPU Manager 说明
      • CCE Backup Controller 说明
      • CCE QoS Agent 说明
      • CCE Descheduler 说明
      • 组件概述
      • CCE Image Accelerate 说明
      • CCE Network Plugin说明
      • Kube ApiServer 说明
      • CCE Log Operator 说明
      • CoreDNS 说明
      • CCE NPU Manager 说明
      • CCE AI Job Scheduler 说明
      • CCE LB Controller 说明
      • CCE P2P Accelerator 说明
      • CCE_Hybrid_Manager说明
      • CCE CSI PFS Plugin 说明
      • CCE Deep Learning Frameworks Operator 说明
      • CCE Node Remedier 说明
      • CCE CSI CDS Plugin 说明
      • CCE Ascend Mindx DL说明
      • CCE Calico Felix 说明
      • CCE Virtual Kubelet组件
      • CCE Fluid说明
      • CCE Onepilot 说明
      • CCE CronHPA Controller 说明
      • CCE 动态调度插件说明
    • 云原生AI
      • 云原生AI概述
      • GPU虚拟化
        • MPS 最佳实践&注意事项
        • GPU独占和共享说明
        • GPU在离线混部使用说明
        • GPU虚拟化适配表
        • 单GPU容器共享多卡使用说明
        • 共享GPU场景下的镜像构建注意事项
        • 关闭节点显存共享功能注意事项
      • 队列管理
        • 逻辑队列和物理队列使用说明
        • 修改队列
        • 删除队列
        • 新建队列
      • 任务管理
        • 基于 NCCL的RDMA分布式训练示例
        • 新建AITraining任务
        • 新建PaddlePaddle任务
        • 删除任务
        • 查看任务信息
        • 新建Mxnet任务
        • 新建TensorFlow任务
        • 新建Pytorch任务
      • 数据集管理
        • 删除数据集
        • 操作数据集
        • 查看数据集
        • 新建数据集
      • AI监控大盘
        • 接入监控实例并开启采集任务
        • NVIDIA芯片资源观测
          • AI Job Scheduler组件
          • GPUManager组件
          • GPU资源池总览
          • GPU节点资源
          • GPU工作负载资源
        • 昇腾芯片资源观测
          • 昇腾节点资源
          • 昇腾资源池总览
          • 昇腾工作负载资源
      • AI 加速套件
        • 使用AIAK-Inference 加速推理业务
        • 使用AIAK-Training Pytorch版
        • AIAK 简介
        • 使用 AIAK-Training 部署分布式训练任务
    • Helm管理
      • Helm模板
      • Helm实例
    • 应用管理
      • 部署
      • 保密字典
      • 服务
      • 配置字典
      • 容器组
      • 概述
    • 镜像仓库
      • 使用容器镜像构建服务
      • 镜像仓库基本操作
    • Serverless集群
      • 在Serverless集群中使用Service
      • 产品概述
      • 创建Serverless集群
    • 工作负载
      • 设置工作负载自动水平伸缩
      • Statefulset管理
      • 使用私有镜像创建工作负载
      • Job管理
      • 查看容器组
      • CronJob管理
      • Daemonset管理
      • 免密拉取容器镜像
      • Deployment管理
    • 节点组管理
      • 节点组管理
      • 节点组介绍
      • 升级节点组
      • 添加外部已有节点
      • 自定义节点组 Kubelet 配置
      • 添加备选机型
      • 节点组节点故障检测自愈
      • 配置扩缩容策略
    • 监控日志
      • 使用Prometheus监控集群
      • CCE 事件中心
      • 集群审计仪表盘
      • CCE 集群异常事件报警
      • Java应用监控
      • 集群服务画像
      • 日志管理
      • 集群审计
      • 日志中心
        • 在容器引擎控制台配置采集规则
        • 查看集群控制面日志
        • 日志概述
        • 查看业务日志
        • 使用CRD配置采集规则
    • 网络管理
      • CCE 集群内容器访问集群外服务
      • 容器网段空间耗尽如何继续扩容(VPC-ENI模式)
      • 容器网段空间耗尽如何继续扩容(VPC网络模式)
      • CCE IP Masquerade Agent 用户指南
      • 创建VPC-ENI模式集群
      • 对等连接场景下容器流量转发配置
      • 使用Network Policy网络策略
      • CCE 支持 IPv4 和 IPv6 双栈网络
      • 在CCE集群中使用NetworkPolicy
      • 网络编排
        • 集群 Pod 子网拓扑分布(容器网络 v2)
        • 容器网络 QoS 管理
        • VPC-ENI指定子网分配IP(容器网络 v2)
      • 网络连通性
        • 容器网络通过 NAT 网关访问公网
      • 网络维护
        • CCE容器网络常见错误码对应表
      • DNS
        • DNS 原理概述
        • DNS 问题排查指南
        • CoreDNS 组件手动升级指南
    • 虚拟节点
      • 管理虚拟节点
      • 配置BCIPod
      • 配置bci-profile
    • 备份中心
      • 备份概述
      • 恢复管理
      • 备份仓库
      • 备份管理
    • 巡检与诊断
      • GPU运行环境检查
      • 集群巡检
      • 故障诊断
    • 流量接入
      • NGINX Ingress 使用配置参考
      • CCE基于nginx-ingress实现灰度发布
      • BLB Ingress Annotation说明
      • 通过CCE使用K8S_Ingress
      • 通过YAML创建LoadBalancer_Service
      • 通过CCE使用K8S_Service
      • LoadBalancer Service Annotation说明
      • 使用直连 Pod 模式 LoadBalancer Service
      • Service复用已有负载均衡BLB
      • 通过YAML创建CCE_Ingress
      • 使用 NGINX Ingress
    • 权限管理
      • 配置集群OIDC认证
      • 配置IAM标签权限策略
      • 配置IAM自定义权限策略
      • 配置IAM预置权限策略
      • 权限概述
      • 配置预置RBAC权限策略
    • 配置管理
      • Secret管理
      • Configmap管理
    • 集群管理
      • 集群快照
      • CCE 安全组
      • 查看集群
      • 创建集群
      • 操作集群
      • 升级集群Kubernetes版本
      • 通过kubectl连接集群
      • 托管集群使用说明
      • CCE 支持 GPUSharing 集群
      • CCE节点资源预留说明
      • CCE 节点 CDS 扩容
  • 服务等级协议SLA
    • CCE服务等级协议SLA(V1.0)
  • Solution-Fabric
    • Fabric解决方案
  • API参考
    • 通用说明
    • 公共头和错误返回
    • 概述
  • 常见问题
    • windows下使用kubectl
    • 自动扩缩容常见问题
    • 通过kubectl创建简单的服务
    • 业务应用如何使用负载均衡?
    • 常见问题总览
    • 集群管理常见问题
  • API_V2参考
    • 通用说明
    • Instance相关接口
    • 附录
    • Autoscaler相关接口
    • 组件管理相关接口
    • 套餐适配相关接口
    • Task相关接口
    • 公共头和错误返回
    • Network相关接口
    • 服务域名
    • Cluster相关接口
    • Kubeconfig相关接口
    • InstanceGroup相关接口
    • RBAC相关接口
    • 概述
  • 产品定价
    • 产品定价
  • Solution-Xchain
    • 超级链解决方案
  • SDK
    • Go-SDK
      • 节点组管理
      • 节点管理
      • 集群管理
      • 初始化
      • 安装SDK工具包
      • 概述
  • 文档中心
  • arrow
  • 容器引擎CCE
  • arrow
  • 操作指南
  • arrow
  • 组件管理
  • arrow
  • CCE AI Job Scheduler 说明
本页目录
  • 组件介绍
  • 组件功能
  • 使用场景
  • 限制说明
  • 安装组件
  • 版本记录

CCE AI Job Scheduler 说明

更新时间:2025-08-21

组件介绍

任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。

组件功能

  • 支持丰富的调度策略和增强型的 Job 管理能力。
  • 调度策略支持 spread和binpack两种策略。binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,适用于需要提高 GPU 资源利用率的场景,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡,使用于 GPU 高可用场景。
  • 抢占模式支持队列内优先级抢占和队列间超发抢占。队列内优先级抢占指同一队列中,优先级高的任务可抢占优先级低任务的资源,保障高优先级任务的运行;队列间超发抢占是指A队列资源用满B队列有空闲资源时,此时若A队列上提交了新任务,将调度到B队列上运行,当B队列上有新任务提交发现资源不足时,将Kill超发任务保障B队列任务运行。
    抢占功能使用可参考队列管理和任务管理中相关说明。

使用场景

您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。

限制说明

  • 仅支持v1.18及以上版本的 Kubernetes 集群。

安装组件

  1. 登录百度智能云官网,并进入管理控制台。
  2. 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
  3. 单击左侧导航栏中的 集群管理 > 集群列表 。
  4. 在集群列表页面中,单击目标集群名称进入集群管理页面。
  5. 在集群管理页面单击 组件管理 。
  6. 在组件管理列表中选择 CCE AI Job Scheduler 组件单击“安装。
  7. 在组件配置页面中完成深度学习框架配置。

截屏2024-06-05 下午2.24.08.png

  • 调度策略支持 spread 和 binpack 两种,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,适用于需要提高 GPU 资源利用率的场景,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡,使用于 GPU 高可用场景。
  • 抢占模式支持队列内优先级抢占和队列间超发抢占。队列内优先级抢占指同一队列中,优先级高的任务可抢占优先级低任务的资源,保障高优先级任务的运行;队列间超发抢占是指A队列资源用满B队列有空闲资源时,此时若A队列上提交了新任务,将调度到B队列上运行,当B队列上有新任务提交发现资源不足时,将Kill超发任务保障B队列任务运行。
  1. 点击“确认”按钮完成组件的安装。

版本记录

版本号 适配集群版本 变更时间 变更内容 影响
1.7.25 CCE v1.18+ 2024.11.07 新功能:
  • 控制面模块支持指定节点部署,webhook类组件支持宿主机网络部署,增加对污点的容忍
  • tor元信息同步优化,使用volcano-node-spec配置套餐rdma信息时,支持配置ehc字段
    优化:
  • 整机申请资源比较优化,整机场景使用标量比较,减少数据拷贝,提升性能
  • 增加myriator插件,支持大模型任务在一个tor下按照index排序调度,优化热点函数提升调度性能
    缺陷修复:
  • 修复并发访问map导致的crash(绑定阶段写map与抢占阶段读map冲突)
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.24 CCE v1.18+ 2024.09.30 新功能:
  • 队列支持配置调度策略,支持StrictFIFO的调度策略
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.23 CCE v1.18+ 2024.09.27 新功能:
  • 支持队列独立配置优先级抢占开关,精细化控制优先级抢占能力
  • 增加调度阶段可观测指标,支持调度阶段耗时可视化
  • 开启队列内优先级抢占场景下,任务配额申请阶段考虑队列内不可抢占的资源
  • NPU拓扑感知调度策略性能优化
    缺陷修复:
  • 【非影响业务】修复偶发调度缓存并发访问导致的panic
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.22 CCE v1.18+ 2024.09.03 新功能:
  • RDMA TOR拓扑感知调度适配EHC Cluster
  • 支持NPU和GPU统一调度器
    优化:
  • 支持同队列任务抢占超发(lowest)任务
  • 支持超发(lowest)任务延迟调度,优先调度高中低优先级的普通任务
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.21 CCE v1.18+ 2024.08.14 优化:
  • 优化安装流程中的证书创建逻辑,解决集群无可用节点导致组件安装超时问题。
  • RDMA信息同步组件适配 BCC/HPAS,支持通过外部配置指定RDMA 信息
  • NPU插件支持抢占功能,支持 NPU 队列内/队列间抢占场景(for NPU)
    缺陷修复:
  • 【非影响业务】修复 Job内存在多种PodSpec时偶发无法调度的问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.20 CCE v1.18+ 2024.07.22 新功能:
  • 支持NPU芯片资源视图大盘
    缺陷修复:
  • 【非影响业务】同一任务存在多类不同的Pod配置,有概率部分pod调度失败影响其他pod的调度
  • 【非影响业务】处理存量队列和 root 重名的情况,导致根队列更新失败
  • 【非影响业务】volcano controller部分功能初始化失败导致队列信息不更新
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.19 CCE v1.18+ 2024.07.05 新功能:
  • 支持集群配置申请GPU资源的 Pod统一至volcano调度器
    优化:
  • 优化抢占场景下 RDMA亲和性入队检查策略,开启抢占则关闭 HPN 检查
  • 优化单任务申请rdma资源的优选策略,尽量使binpack效果更明显
    缺陷修复:
  • 解决 RDMA 资源视图不兼容Terminating释放中的资源,引发调度器panic的问题
  • 修复了任务不指定队列时不设置默认队列的问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.18 CCE v1.18+ 2024.06.26 新功能:
  • 队列指标支持P800芯片,新增P800资源视图大盘;
  • 资源视图命令行工具适配 P800芯片,支持P800集群的任务诊断;
  • 物理队列支持自定义资源管理节点标签,兼容用户已有资源管理标签的场景;
  • RDMA亲和性调度策略支持扩展自定义资源描述符,例如baidu/gpu_hzz1o_8;
    优化:
  • MPIJob场景RDMA TOR策略优化:仅申请CPU的Pod去除一个Job内分布同一RDMA POD下的分布约束
  • IB场景适配:针对无法获取 RDMA TOR 信息的IB实例,毋须关闭TOR亲和性调度策略
    缺陷修复:
  • 修复推理服务不受物理队列管控的问题,支持了多种工作负载对物理队列的适配
  • 修复了由于pod/node亲和性权重较低导致的反亲和部署策略效果不明显问题
  • 解决volcano 视图工具 dump视图计算异常
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.17 CCE v1.18+ 2024.06.02 新功能:
  • 新增队列资源视图大盘,队列指标丰富,支持弹性/层级队列功能,支持nvidia/昆仑等多种芯片;
    优化:
  • 集群多调度器混用场景加固,支持识别集群已有其他调度器分配的GPU卡,避免单节点混用多种调度器分配GPU;
  • 增加了单队列 Capability,Deserved 和 Guarantee 间的资源申请合法校验,避免创建无效队列;
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.16 CCE v1.18+ 2024.05.23 新功能:
  • 增加GPU资源调度器强制拦截开关功能。
    优化:
  • 修复队列无法忽略rdma资源问题
  • 修复注入节点亲和性调度失效问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.15 CCE v1.18+ 2024.05.17 新功能:
  • 支持昆仑新芯片以及拓扑感知调度功能。
    优化:
  • 层级队列调度失败信息优化,非叶子队列调度失败时暴露事件
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.14 CCE v1.18+ 2024.05.09 新功能:
  • 发布弹性队列能力,支持队列资源的预留、共享与回收。
  • 发布物理队列能力,支持队列任务定向调度到指定资源池。
  • 支持通过任务/服务标签配置工作负载所需的最小保障副本数。
    缺陷修复:
  • 修复节点资源outOfSync不一致后,节点状态恢复但资源视图无法自恢复问题
  • 优化抢占策略:抢占者任务预期抢占受害者后仍不满足调度时,不触发抢占
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    v1.7.13以下版本请联系百度云协助升级。
    1.7.13 CCE v1.18+ 2024.04.15 新功能:
  • 发布层级队列能力,支持层级的队列配额管理能力
    优化:
  • 开启队列内抢占功能时,队列入队增加可抢占资源计算,预期抢占后满足调度条件则允许入队;
  • RDMA拓扑感知策略增加PodGroup事件
    缺陷修复:
  • 修复抢占场景下资源视图计算错误导致的调度器重启问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.12 CCE v1.18+ 2024.03.28 新功能
  • RDMA亲和性策略,支持基于RDMA POD/TOR拓扑结构调度,提高多机训练性能
    优化
  • 默认部署策略优化
    a. 默认关闭在离线混部功能
    b. 默认关闭队列内/队列间抢占功能
    c. 默认关闭VPC TOR亲和性调度功能
    d. 支持SLA 策略开关,支持特定客户的使用场景
    缺陷修复:
  • 修复昆仑卡拓扑感知调度无法分配昆仑卡号的问题
  • 修复推理服务申请配额计算错误导致的无法入队问题
  • 修复webhook/controller中存在的并发访问内存导致的crash问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.11 CCE v1.18+ 2024.01.31 优化:
  • 资源视图优化,工作负载指标增加pod_group_uid标签,节点资源指标增加节点类型标签
  • 视图工具支持用户自定义的volcano命名空间
  • 调度器内部分卡协议优化,避免分卡信息写入apiserver失败导致的错卡问题
    缺陷修复:
  • 修复存在待释放资源节点(Terminating Pod占用)和空闲节点多个符合调度所需的场景下,调度器依然选择调度至待释放资源节点的问题
  • 修复任务annotation不存在导致controller重启的问题
  • 修复并发访问map未加锁导致调度器重启的问题
  • 修复上报队列监控指标异常处理导致调度器重启的问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.10 CCE v1.18+ 2023.12.21 优化:
  • 优先级调度策略支持跨namespace
    缺陷修复:
  • 修复tor调度在选不到tor且调度失败的情况下导致的panic
  • 修复device-affinity插件导致的panic,并且给device-affinity策略提供开关
  • 修复volcano的webhook增加可以忽略带有kubernetes.io/mutate-pod-webhook: unavailable标签的namespace,并且在安装的时候,默认给kube-system和volcano-system增加这个label
  • 修复pod的owner reference为pod的管理方式
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.9 CCE v1.18+ 2023.11.28 新功能:
  • 资源视图支持资源统计大盘和节点资源大盘
  • 资源视图支持工作负载详情大盘
  • volcano稳定性大盘指标
    优化:
  • 支持任务通过preemptable标签指定任务不可被抢占
    缺陷修复:
    - 修复调度器重启后,因视图同步延迟造成的视图错误
  • 修复volcano增加对nvidia.com/gpu资源的binpack策略
  • 修复抢占时需要保证卡类型相同,否则不发生抢占
  • 修复tor策略的空指针异常
  • 修复并发访问的device对应导致的panic
  • 修复collector采集指标时的并发访问导致的panic
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.8 CCE v1.18+ 2023.10.30 新功能:
  • 支持k8s标准工作负载Pod/Job/Deployement/Statefulset的PodGroup生命周期管理
  • 新增命令行工具,支持集群节点/队列的资源视图查看,自主排查任务无法调度情况
    优化:
  • 支持MPIJob查看被抢占事件。
    缺陷修复:
  • 解决未支持的工作负载的队列/集群配额残留问题;
  • 解决队列未忽略弹性任务中申请的RDMA资源,造成队列配额超用误判的问题
  • 解决GPU共享卡场景下,计算资源视图指标逻辑有误,引发调度器panic的问题
  • 解决1.7.3以下版本升级时滚动策略机制不合理,有概率导致webhook证书不一致问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.7 CCE v1.18+ 2023.10.11 新功能:
  • 新增昆仑r480型号的numa调度(依赖GPU-Manager版本 1.5.25)
  • 支持H800芯片的独占卡模式(依赖GPU-Manager版本 1.5.25)
  • 支持4090芯片的独占卡/共享卡模式(依赖GPU-Manager版本 1.5.25)
  • 资源视图支持(grafana监控大盘,展示集群资源总览与节点资源明细,和百舸页面保持一致)
    优化:
  • 支持Deployment的podgroup管理
  • 命令行工具增加选项,支持根据job类型和podgroup状态筛选job列表,支持summary选项对选中的job列表占用资源量进行求和
  • 命令行补充totalgpu字段,在nvidia和cgpu描述符混合使用的时候,统计实际的gpu卡数
    缺陷修复:
  • 修复GPU选卡阶段选择到Terminating阶段的Pod
  • 修复notready节点,grafana监控无法显示
  • 修复predicate阶段terminating导致的调度卡住问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.6 CCE v1.18+ 2023.09.22 新功能:
  • 新增集群资源视图/调度问题诊断工具
  • 支持单容器多共享卡
  • TOR架构感知能力新增支持MPIJob类型任务,兼容Training-operator 1.5+/百度Deep Learning Framework组件1.6+。
    优化:
  • 日志优化:支持日志等级动态调整;调整至json格式
    缺陷修复:
  • 修复队列弹性资源计算错误引发调度器panic问题。针对1.7.x以上podgroup支持minResources功能,podgroup部分pod运行且不包含minResource中的全部资源,则会引发调度器panic。https://github.com/volcano-sh/volcano/issues/3105
  • 修复Pod调度过程中,设备亲和性策略计算后,Pod备选节点为空,引发调度器panic问题
  • 修复controller权限不足导致的job对应的podgroup标签获取失败问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.4 CCE v1.18+ 2023.06.14 新功能:
  • 支持volcano scheduler/admission/controller的高可用,默认3副本模式
    优化:
  • 队列支持用量统计
  • 优化admission的签发证书流程,使用secret保存访问证书
  • scheduler/admission/controller增加资源配置参数
    缺陷修复:
  • 修复并发读写node资源导致调度器panic问题
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.3 CCE v1.18+ 2023.05.06 新功能:
  • 支持自定义抢占策略
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.2 CCE v1.18+ 2023.04.24 新功能:
  • 支持a800芯片的独占卡/共享卡模式
  • 支持自定义调度器名称及调度资源组
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。
    1.7.0 CCE v1.18+ 2023.04.14 新功能:
  • volcano升级至社区1.7版本
  • 此次升级不会对业务造成影响。
    不支持 1.5.8 以下版本升级至该版本。

    上一篇
    CCE NPU Manager 说明
    下一篇
    CCE LB Controller 说明