CCE Deep Learning Frameworks Operator 说明

更新时间：2025-08-21

组件介绍

主流深度学习框架 operator 组件，结合 CCE AI Job Scheduler，可实现直接在 CCE 上进行深度学习模型训练。

组件功能

集成主流深度学习框架，提供开箱即用的深度学习任务提交能力，目前支持以下深度学习框架：

1、TensorFlow（TFJob）

2、PyTorch（PyTorchJob）

3、MXNet（MXJob）

4、PaddlePaddle（PaddleJob）

使用场景

您可以直接在 CCE 集群上运行深度学习任务，提高 AI 工程效率。

限制说明

仅支持 v1.18 及以上版本的 Kubernetes 集群。

安装组件

登录百度智能云官网，并进入管理控制台。
选择“产品服务 > 云原生 > 容器引擎 CCE”，单击进入容器引擎管理控制台。
单击左侧导航栏中的 集群管理 > 集群列表 。
在集群列表页面中，单击目标集群名称进入集群管理页面。
在集群管理页面单击 运维与管理 > 组件管理 。
在组件管理列表中选择 CCE Deep Learning Frameworks Operator 组件单击“安装。

框架：目前支持 TensorFlow、Pytorch、Mxnet、PaddlePaddle 四种深度学习框架。

版本记录

版本号	适配集群版本	更新时间	更新内容	影响
1.6.23	CCE/v1.18+	2024.09.11	新功能：支持训练hang场景检测&告警 mpijob自动注入ssh免密登陆配置优化： pytorchjob任务timeline字段优化任务所在节点发生nic up/down故障场景，容错能力优化	此次升级不会对业务造成影响
1.6.22	CCE/v1.18+	2024.08.28	新功能：支持停止处于排队中/启动中状态的任务优化：支持展示更精确的任务状态优化 MPIJob laucher 在 worker 未启动会重试几次的问题	此次升级不会对业务造成影响
1.6.21	CCE/v1.18+	2024.07.22	MPIJob支持通过任务标签配置RDMA亲和性策略;ftagent-exporter性能指标适配P800集群;job barrier优化,master和woker优化退出超时机制;增加容错触发后pod长时间处于terminating可强制删除开关;容错内部与k8s交互逻辑改为informer
1.6.20	CCE/v1.18+	2024.05.29	修复 ftagent 会占用 8080 端口的问题
1.6.19	CCE/v1.18+	2024.05.29	training-operator 默认开启 job-barrier, job-barrier 支持容错抢占; training-operator 支持异步清理终态任务的 service; training-operator 支持打上 stop condition && stop init container; 修复特殊情况下会重复创删 pod service
1.6.18	CCE/v1.18+	2024.05.17	ftagent-exporter 适配AIAK2.0镜像&支持Loss指标&回溯时间更新为60s&针容错针对好未来nic up down 场景优化
1.6.17	CCE/v1.18+	2024.04.12	ftagent-exporter 指标新增 pod_name, job_name 标签
1.6.16	CCE/v1.18+	2024.03.11	支持训练任务性能指标采集和上报：吞吐性能指标、分阶段耗时指标
1.6.15	CCE/v1.18+	2024.02.26	任务被抢占&触发容错重调度，pytorchjob置为Restarting状态，修复pytorchjob没有Created状态bug，修复pod failed pytorchjob为running bug；新增ftagent exporter，支持集合通信带宽指标暴露；
1.6.14	CCE/v1.18+	2024.02.06	新增任务事件timeline&容错事件&tensorboard gc
1.6.13	CCE/v1.18+	2024.01.17	新增master/worker node not ready 场景容错优化
1.6.12	CCE/v1.18+	2023.12.18	新增 Training-Operator、Mpi-Operator 支持优先级抢占; bugfix: Mpi-Operator 修复同名任务频繁创删场景创建 pod 卡住问题
1.6.11	CCE/v1.18+	2023.12.04	新增自动容错覆盖节点not ready的场景;
1.6.10	CCE/v1.18+	2023.11.22	新增容错支持 master-worker 模式
1.6.9	CCE/v1.18+	2023.11.03	新增hang 检测解耦etcd；新增非法任务名校验；新增任务名长度校验不超过50；bugfix: ft-agent 支持重启策略为OnFailure Pod；修复c10d 作业概率性创建失败问题；新增容错开关；任务hang 支持容错；1.6.9 版本不部署etcd；新版本容错对接控制台；training-operator 默认关闭job barrier 功能；
1.6.8	CCE/v1.18+	2023.10.10	容错功能重构，解决任务失败资源无法释放的问题
1.6.6	CCE/v1.18+	2023.08.25	PytorchJob支持hang检测；MPIJob支持hostfile注入worker节点和任务停止；修复training-operator快速删除、创建任务时Pod无法被创建；PytorchJob initContainer添加最大重试次数；Training-Operator 任务失败 ftagent 退出时清理训练进程
1.6.5	CCE/v1.18+	2023.07.07	升级 Pytorchjob支持宕机容错
1.6.4	CCE/v1.18+	2023.07.05	MPI Operator 指定 gang-scheduling，改为由 operator 维护 pg
1.6.3	CCE/v1.18+	2023.06.27	新增 MPI Operator 与 Paddle Operator；支持作业停止；TrainingOperator可将作业状态通过exporter对外暴露
1.6.1	CCE/v1.18+	2023.05.30	升级 Pytorchjob支持硬件故障（GPU、NIC）容错
0.3.0	CCE/v1.18+	2022.05.12	升级为 TrainingOperator 将 PyTorch/Tensorflow/MXNet Operator 合并	不支持一件升级，需先卸载旧版插件重新安装
0.2.1	CCE/v1.18+	2022.03.02	新增：AiTrainingJob Webhook
0.2.0	CCE/v1.18+	2022.01.21	新增：AI Training Operator
0.1.0	CCE/v1.18+	2021.05.31	首次上线	-

CCE CSI PFS Plugin 说明

CCE Node Remedier 说明

容器引擎 CCE