CCE AI Job Scheduler 说明

更新时间：2025-08-21

组件介绍

任务调度组件，支持调度管理各种AI任务，结合 CCE Deep Leaning Frameworks Operator，可实现直接在 CCE 上进行深度学习模型训练。

组件功能

支持丰富的调度策略和增强型的 Job 管理能力。
调度策略支持 spread和binpack两种策略。binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡，适用于需要提高 GPU 资源利用率的场景，spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡，使用于 GPU 高可用场景。
抢占模式支持队列内优先级抢占和队列间超发抢占。队列内优先级抢占指同一队列中，优先级高的任务可抢占优先级低任务的资源，保障高优先级任务的运行；队列间超发抢占是指A队列资源用满B队列有空闲资源时，此时若A队列上提交了新任务，将调度到B队列上运行，当B队列上有新任务提交发现资源不足时，将Kill超发任务保障B队列任务运行。
抢占功能使用可参考队列管理和任务管理中相关说明。

使用场景

您可以直接在 CCE 集群上运行深度学习任务，提高 AI 工程效率。

限制说明

仅支持v1.18及以上版本的 Kubernetes 集群。

安装组件

登录百度智能云官网，并进入管理控制台。
选择“产品服务 > 云原生 > 容器引擎 CCE”，单击进入容器引擎管理控制台。
单击左侧导航栏中的 集群管理 > 集群列表 。
在集群列表页面中，单击目标集群名称进入集群管理页面。
在集群管理页面单击 组件管理 。
在组件管理列表中选择 CCE AI Job Scheduler 组件单击“安装。
在组件配置页面中完成深度学习框架配置。

截屏2024-06-05 下午2.24.08.png

调度策略支持 spread 和 binpack 两种，binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡，适用于需要提高 GPU 资源利用率的场景，spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡，使用于 GPU 高可用场景。
抢占模式支持队列内优先级抢占和队列间超发抢占。队列内优先级抢占指同一队列中，优先级高的任务可抢占优先级低任务的资源，保障高优先级任务的运行；队列间超发抢占是指A队列资源用满B队列有空闲资源时，此时若A队列上提交了新任务，将调度到B队列上运行，当B队列上有新任务提交发现资源不足时，将Kill超发任务保障B队列任务运行。

点击“确认”按钮完成组件的安装。

版本记录

版本号	适配集群版本	变更时间	变更内容	影响
1.7.25	CCE v1.18+	2024.11.07	新功能：控制面模块支持指定节点部署，webhook类组件支持宿主机网络部署，增加对污点的容忍 tor元信息同步优化，使用volcano-node-spec配置套餐rdma信息时，支持配置ehc字段优化：整机申请资源比较优化，整机场景使用标量比较，减少数据拷贝，提升性能增加myriator插件，支持大模型任务在一个tor下按照index排序调度，优化热点函数提升调度性能缺陷修复：修复并发访问map导致的crash（绑定阶段写map与抢占阶段读map冲突）	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.24	CCE v1.18+	2024.09.30	新功能：队列支持配置调度策略，支持StrictFIFO的调度策略	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.23	CCE v1.18+	2024.09.27	新功能：支持队列独立配置优先级抢占开关，精细化控制优先级抢占能力增加调度阶段可观测指标，支持调度阶段耗时可视化开启队列内优先级抢占场景下，任务配额申请阶段考虑队列内不可抢占的资源 NPU拓扑感知调度策略性能优化缺陷修复：【非影响业务】修复偶发调度缓存并发访问导致的panic	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.22	CCE v1.18+	2024.09.03	新功能： RDMA TOR拓扑感知调度适配EHC Cluster 支持NPU和GPU统一调度器优化：支持同队列任务抢占超发(lowest)任务支持超发(lowest)任务延迟调度，优先调度高中低优先级的普通任务	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.21	CCE v1.18+	2024.08.14	优化：优化安装流程中的证书创建逻辑，解决集群无可用节点导致组件安装超时问题。 RDMA信息同步组件适配 BCC/HPAS，支持通过外部配置指定RDMA 信息 NPU插件支持抢占功能，支持 NPU 队列内/队列间抢占场景（for NPU）缺陷修复：【非影响业务】修复 Job内存在多种PodSpec时偶发无法调度的问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.20	CCE v1.18+	2024.07.22	新功能：支持NPU芯片资源视图大盘缺陷修复：【非影响业务】同一任务存在多类不同的Pod配置，有概率部分pod调度失败影响其他pod的调度【非影响业务】处理存量队列和 root 重名的情况，导致根队列更新失败【非影响业务】volcano controller部分功能初始化失败导致队列信息不更新	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.19	CCE v1.18+	2024.07.05	新功能：支持集群配置申请GPU资源的 Pod统一至volcano调度器优化：优化抢占场景下 RDMA亲和性入队检查策略，开启抢占则关闭 HPN 检查优化单任务申请rdma资源的优选策略，尽量使binpack效果更明显缺陷修复：解决 RDMA 资源视图不兼容Terminating释放中的资源，引发调度器panic的问题修复了任务不指定队列时不设置默认队列的问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.18	CCE v1.18+	2024.06.26	新功能：队列指标支持P800芯片，新增P800资源视图大盘；资源视图命令行工具适配 P800芯片，支持P800集群的任务诊断；物理队列支持自定义资源管理节点标签，兼容用户已有资源管理标签的场景； RDMA亲和性调度策略支持扩展自定义资源描述符，例如baidu/gpu_hzz1o_8；优化： MPIJob场景RDMA TOR策略优化：仅申请CPU的Pod去除一个Job内分布同一RDMA POD下的分布约束 IB场景适配：针对无法获取 RDMA TOR 信息的IB实例，毋须关闭TOR亲和性调度策略缺陷修复：修复推理服务不受物理队列管控的问题，支持了多种工作负载对物理队列的适配修复了由于pod/node亲和性权重较低导致的反亲和部署策略效果不明显问题解决volcano 视图工具 dump视图计算异常	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.17	CCE v1.18+	2024.06.02	新功能：新增队列资源视图大盘，队列指标丰富，支持弹性/层级队列功能，支持nvidia/昆仑等多种芯片；优化：集群多调度器混用场景加固，支持识别集群已有其他调度器分配的GPU卡，避免单节点混用多种调度器分配GPU；增加了单队列 Capability，Deserved 和 Guarantee 间的资源申请合法校验，避免创建无效队列；	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.16	CCE v1.18+	2024.05.23	新功能：增加GPU资源调度器强制拦截开关功能。优化：修复队列无法忽略rdma资源问题修复注入节点亲和性调度失效问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.15	CCE v1.18+	2024.05.17	新功能：支持昆仑新芯片以及拓扑感知调度功能。优化：层级队列调度失败信息优化，非叶子队列调度失败时暴露事件	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.14	CCE v1.18+	2024.05.09	新功能：发布弹性队列能力，支持队列资源的预留、共享与回收。发布物理队列能力，支持队列任务定向调度到指定资源池。支持通过任务/服务标签配置工作负载所需的最小保障副本数。缺陷修复：修复节点资源outOfSync不一致后，节点状态恢复但资源视图无法自恢复问题优化抢占策略：抢占者任务预期抢占受害者后仍不满足调度时，不触发抢占	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。 v1.7.13以下版本请联系百度云协助升级。
1.7.13	CCE v1.18+	2024.04.15	新功能：发布层级队列能力，支持层级的队列配额管理能力优化：开启队列内抢占功能时，队列入队增加可抢占资源计算，预期抢占后满足调度条件则允许入队； RDMA拓扑感知策略增加PodGroup事件缺陷修复：修复抢占场景下资源视图计算错误导致的调度器重启问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.12	CCE v1.18+	2024.03.28	新功能 RDMA亲和性策略，支持基于RDMA POD/TOR拓扑结构调度，提高多机训练性能优化默认部署策略优化 a. 默认关闭在离线混部功能 b. 默认关闭队列内/队列间抢占功能 c. 默认关闭VPC TOR亲和性调度功能 d. 支持SLA 策略开关，支持特定客户的使用场景缺陷修复：修复昆仑卡拓扑感知调度无法分配昆仑卡号的问题修复推理服务申请配额计算错误导致的无法入队问题修复webhook/controller中存在的并发访问内存导致的crash问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.11	CCE v1.18+	2024.01.31	优化：资源视图优化，工作负载指标增加pod_group_uid标签，节点资源指标增加节点类型标签视图工具支持用户自定义的volcano命名空间调度器内部分卡协议优化，避免分卡信息写入apiserver失败导致的错卡问题缺陷修复：修复存在待释放资源节点(Terminating Pod占用)和空闲节点多个符合调度所需的场景下，调度器依然选择调度至待释放资源节点的问题修复任务annotation不存在导致controller重启的问题修复并发访问map未加锁导致调度器重启的问题修复上报队列监控指标异常处理导致调度器重启的问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.10	CCE v1.18+	2023.12.21	优化：优先级调度策略支持跨namespace 缺陷修复：修复tor调度在选不到tor且调度失败的情况下导致的panic 修复device-affinity插件导致的panic，并且给device-affinity策略提供开关修复volcano的webhook增加可以忽略带有kubernetes.io/mutate-pod-webhook: unavailable标签的namespace，并且在安装的时候，默认给kube-system和volcano-system增加这个label 修复pod的owner reference为pod的管理方式	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.9	CCE v1.18+	2023.11.28	新功能：资源视图支持资源统计大盘和节点资源大盘资源视图支持工作负载详情大盘 volcano稳定性大盘指标优化：支持任务通过preemptable标签指定任务不可被抢占缺陷修复： - 修复调度器重启后，因视图同步延迟造成的视图错误修复volcano增加对nvidia.com/gpu资源的binpack策略修复抢占时需要保证卡类型相同，否则不发生抢占修复tor策略的空指针异常修复并发访问的device对应导致的panic 修复collector采集指标时的并发访问导致的panic	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.8	CCE v1.18+	2023.10.30	新功能：支持k8s标准工作负载Pod/Job/Deployement/Statefulset的PodGroup生命周期管理新增命令行工具，支持集群节点/队列的资源视图查看，自主排查任务无法调度情况优化：支持MPIJob查看被抢占事件。缺陷修复：解决未支持的工作负载的队列/集群配额残留问题；解决队列未忽略弹性任务中申请的RDMA资源，造成队列配额超用误判的问题解决GPU共享卡场景下，计算资源视图指标逻辑有误，引发调度器panic的问题解决1.7.3以下版本升级时滚动策略机制不合理，有概率导致webhook证书不一致问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.7	CCE v1.18+	2023.10.11	新功能：新增昆仑r480型号的numa调度（依赖GPU-Manager版本 1.5.25）支持H800芯片的独占卡模式（依赖GPU-Manager版本 1.5.25）支持4090芯片的独占卡/共享卡模式（依赖GPU-Manager版本 1.5.25）资源视图支持(grafana监控大盘，展示集群资源总览与节点资源明细，和百舸页面保持一致) 优化：支持Deployment的podgroup管理命令行工具增加选项，支持根据job类型和podgroup状态筛选job列表，支持summary选项对选中的job列表占用资源量进行求和命令行补充totalgpu字段，在nvidia和cgpu描述符混合使用的时候，统计实际的gpu卡数缺陷修复：修复GPU选卡阶段选择到Terminating阶段的Pod 修复notready节点，grafana监控无法显示修复predicate阶段terminating导致的调度卡住问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.6	CCE v1.18+	2023.09.22	新功能：新增集群资源视图/调度问题诊断工具支持单容器多共享卡 TOR架构感知能力新增支持MPIJob类型任务，兼容Training-operator 1.5+/百度Deep Learning Framework组件1.6+。优化：日志优化：支持日志等级动态调整；调整至json格式缺陷修复：修复队列弹性资源计算错误引发调度器panic问题。针对1.7.x以上podgroup支持minResources功能，podgroup部分pod运行且不包含minResource中的全部资源，则会引发调度器panic。https://github.com/volcano-sh/volcano/issues/3105 修复Pod调度过程中，设备亲和性策略计算后，Pod备选节点为空，引发调度器panic问题修复controller权限不足导致的job对应的podgroup标签获取失败问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.4	CCE v1.18+	2023.06.14	新功能：支持volcano scheduler/admission/controller的高可用，默认3副本模式优化：队列支持用量统计优化admission的签发证书流程，使用secret保存访问证书 scheduler/admission/controller增加资源配置参数缺陷修复：修复并发读写node资源导致调度器panic问题	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.3	CCE v1.18+	2023.05.06	新功能：支持自定义抢占策略	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.2	CCE v1.18+	2023.04.24	新功能：支持a800芯片的独占卡/共享卡模式支持自定义调度器名称及调度资源组	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。
1.7.0	CCE v1.18+	2023.04.14	新功能： volcano升级至社区1.7版本	此次升级不会对业务造成影响。不支持 1.5.8 以下版本升级至该版本。

CCE NPU Manager 说明

CCE LB Controller 说明

容器引擎 CCE

容器引擎 CCE

CCE AI Job Scheduler 说明

组件介绍

组件功能

使用场景

限制说明

安装组件

版本记录