TensorFlow 1.13.2

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
所有文档
menu
没有找到结果,请重新输入

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
  • 文档中心
  • arrow
  • 全功能AI开发平台BML
  • arrow
  • 模型训练
  • arrow
  • 自定义作业建模
  • arrow
  • 训练作业
  • arrow
  • 训练作业代码示例
  • arrow
  • TensorFlow 1.13.2
本页目录
  • TensorFlow

TensorFlow 1.13.2

更新时间:2025-08-21

TensorFlow

基于tensorflow框架的MNIST图像分类任务示例代码,训练数据集点击这里下载

单机训练(计算节点数为1),示例代码如下:

Python
1import os
2import tensorflow as tf
3import numpy as np
4from tensorflow import keras
5layers = tf.layers
6tf.logging.set_verbosity(tf.logging.INFO)
7def conv_model(feature, target, mode):
8 """2-layer convolution model."""
9 # Convert the target to a one-hot tensor of shape (batch_size, 10) and
10 # with a on-value of 1 for each one-hot vector of length 10.
11 target = tf.one_hot(tf.cast(target, tf.int32), 10, 1, 0)
12 # Reshape feature to 4d tensor with 2nd and 3rd dimensions being
13 # image width and height final dimension being the number of color channels.
14 feature = tf.reshape(feature, [-1, 28, 28, 1])
15 # First conv layer will compute 32 features for each 5x5 patch
16 with tf.variable_scope('conv_layer1'):
17     h_conv1 = layers.conv2d(feature, 32, kernel_size=[5, 5],
18                             activation=tf.nn.relu, padding="SAME")
19     h_pool1 = tf.nn.max_pool(
20         h_conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
21 # Second conv layer will compute 64 features for each 5x5 patch.
22 with tf.variable_scope('conv_layer2'):
23     h_conv2 = layers.conv2d(h_pool1, 64, kernel_size=[5, 5],
24                             activation=tf.nn.relu, padding="SAME")
25     h_pool2 = tf.nn.max_pool(
26         h_conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
27     # reshape tensor into a batch of vectors
28     h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])
29 # Densely connected layer with 1024 neurons.
30 h_fc1 = layers.dropout(
31     layers.dense(h_pool2_flat, 1024, activation=tf.nn.relu),
32     rate=0.5, training=mode == tf.estimator.ModeKeys.TRAIN)
33 # Compute logits (1 per class) and compute loss.
34 logits = layers.dense(h_fc1, 10, activation=None)
35 loss = tf.losses.softmax_cross_entropy(target, logits)
36 return tf.argmax(logits, 1), loss
37def train_input_generator(x_train, y_train, batch_size=64):
38 assert len(x_train) == len(y_train)
39 while True:
40     p = np.random.permutation(len(x_train))
41     x_train, y_train = x_train[p], y_train[p]
42     index = 0
43     while index <= len(x_train) - batch_size:
44         yield x_train[index:index + batch_size], \
45               y_train[index:index + batch_size],
46         index += batch_size
47def main(_):
48 work_path = os.getcwd()
49 # Download and load MNIST dataset.
50 (x_train, y_train), (x_test, y_test) = \
51     keras.datasets.mnist.load_data('%s/train_data/mnist.npz' % work_path)
52 # The shape of downloaded data is (-1, 28, 28), hence we need to reshape it
53 # into (-1, 784) to feed into our network. Also, need to normalize the
54 # features between 0 and 1.
55 x_train = np.reshape(x_train, (-1, 784)) / 255.0
56 x_test = np.reshape(x_test, (-1, 784)) / 255.0
57 # Build model...
58 with tf.name_scope('input'):
59     image = tf.placeholder(tf.float32, [None, 784], name='image')
60     label = tf.placeholder(tf.float32, [None], name='label')
61 predict, loss = conv_model(image, label, tf.estimator.ModeKeys.TRAIN)
62 opt = tf.train.RMSPropOptimizer(0.001)
63 global_step = tf.train.get_or_create_global_step()
64 train_op = opt.minimize(loss, global_step=global_step)
65 hooks = [
66     tf.train.StopAtStepHook(last_step=20000),
67     tf.train.LoggingTensorHook(tensors={'step': global_step, 'loss': loss},
68                                every_n_iter=10),
69 ]
70 # Horovod: pin GPU to be used to process local rank (one GPU per process)
71 config = tf.ConfigProto()
72 config.gpu_options.allow_growth = True
73 config.gpu_options.visible_device_list = '0'
74 # Horovod: save checkpoints only on worker 0 to prevent other workers from
75 # corrupting them.
76 checkpoint_dir = './checkpoints'
77 training_batch_generator = train_input_generator(x_train,
78                                                  y_train, batch_size=100)
79 # The MonitoredTrainingSession takes care of session initialization,
80 # restoring from a checkpoint, saving to a checkpoint, and closing when done
81 # or an error occurs.
82 with tf.train.MonitoredTrainingSession(checkpoint_dir=checkpoint_dir,
83                                        hooks=hooks,
84                                        config=config) as mon_sess:
85     while not mon_sess.should_stop():
86         # Run a training step synchronously.
87         image_, label_ = next(training_batch_generator)
88         mon_sess.run(train_op, feed_dict={image: image_, label: label_})
89 checkpoint_file = tf.train.latest_checkpoint(checkpoint_dir)
90 saver = tf.train.Saver()
91 inputs_classes = tf.saved_model.utils.build_tensor_info(image)
92 outputs_classes = tf.saved_model.utils.build_tensor_info(predict)
93 signature = (tf.saved_model.signature_def_utils.build_signature_def(
94     inputs={tf.saved_model.signature_constants.CLASSIFY_INPUTS: inputs_classes},
95     outputs={tf.saved_model.signature_constants.CLASSIFY_OUTPUT_CLASSES: outputs_classes},
96     method_name=tf.saved_model.signature_constants.CLASSIFY_METHOD_NAME))
97 os.system("rm -rf ./output")
98 with tf.Session() as sess:
99    sess.run([tf.local_variables_initializer(), tf.tables_initializer()])
100    saver.restore(sess, checkpoint_file)
101    builder = tf.saved_model.builder.SavedModelBuilder('./output')
102    legacy_init_op = tf.group(tf.tables_initializer(), name='legacy_init_op')
103    builder.add_meta_graph_and_variables(sess, [tf.saved_model.tag_constants.SERVING], signature_def_map={'predict_images': signature}, legacy_init_op=legacy_init_op)
104    builder.save()
105if __name__ == "__main__":
106 tf.app.run()

分布式训练(计算节点数大于1),示例代码如下:

说明:demo分布式程序没有做数据的分片操作,仅供参考

Python
1import os
2import tensorflow as tf
3import horovod.tensorflow as hvd
4import numpy as np
5from tensorflow import keras
6layers = tf.layers
7tf.logging.set_verbosity(tf.logging.INFO)
8def conv_model(feature, target, mode):
9    """2-layer convolution model."""
10    # Convert the target to a one-hot tensor of shape (batch_size, 10) and
11    # with a on-value of 1 for each one-hot vector of length 10.
12    target = tf.one_hot(tf.cast(target, tf.int32), 10, 1, 0)
13    # Reshape feature to 4d tensor with 2nd and 3rd dimensions being
14    # image width and height final dimension being the number of color channels.
15    feature = tf.reshape(feature, [-1, 28, 28, 1])
16    # First conv layer will compute 32 features for each 5x5 patch
17    with tf.variable_scope('conv_layer1'):
18        h_conv1 = layers.conv2d(feature, 32, kernel_size=[5, 5],
19                                activation=tf.nn.relu, padding="SAME")
20        h_pool1 = tf.nn.max_pool(
21            h_conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
22    # Second conv layer will compute 64 features for each 5x5 patch.
23    with tf.variable_scope('conv_layer2'):
24        h_conv2 = layers.conv2d(h_pool1, 64, kernel_size=[5, 5],
25                                activation=tf.nn.relu, padding="SAME")
26        h_pool2 = tf.nn.max_pool(
27            h_conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
28        # reshape tensor into a batch of vectors
29        h_pool2_flat = tf.reshape(h_pool2, [-1, 7 * 7 * 64])
30    # Densely connected layer with 1024 neurons.
31    h_fc1 = layers.dropout(
32        layers.dense(h_pool2_flat, 1024, activation=tf.nn.relu),
33        rate=0.5, training=mode == tf.estimator.ModeKeys.TRAIN)
34    # Compute logits (1 per class) and compute loss.
35    logits = layers.dense(h_fc1, 10, activation=None)
36    loss = tf.losses.softmax_cross_entropy(target, logits)
37    return tf.argmax(logits, 1), loss
38def train_input_generator(x_train, y_train, batch_size=64):
39    assert len(x_train) == len(y_train)
40    while True:
41        p = np.random.permutation(len(x_train))
42        x_train, y_train = x_train[p], y_train[p]
43        index = 0
44        while index <= len(x_train) - batch_size:
45            yield x_train[index:index + batch_size], \
46                  y_train[index:index + batch_size],
47            index += batch_size
48def main(_):
49    # Horovod: initialize Horovod.
50    hvd.init()
51    work_path = os.getcwd()
52    # Download and load MNIST dataset.
53    (x_train, y_train), (x_test, y_test) = \
54        keras.datasets.mnist.load_data('%s/train_data/mnist.npz' % work_path)
55    # The shape of downloaded data is (-1, 28, 28), hence we need to reshape it
56    # into (-1, 784) to feed into our network. Also, need to normalize the
57    # features between 0 and 1.
58    x_train = np.reshape(x_train, (-1, 784)) / 255.0
59    x_test = np.reshape(x_test, (-1, 784)) / 255.0
60    # Build model...
61    with tf.name_scope('input'):
62        image = tf.placeholder(tf.float32, [None, 784], name='image')
63        label = tf.placeholder(tf.float32, [None], name='label')
64    predict, loss = conv_model(image, label, tf.estimator.ModeKeys.TRAIN)
65    serve_graph_file = "./serve_graph.meta"
66    tf.train.export_meta_graph(serve_graph_file, as_text=True)
67    # Horovod: adjust learning rate based on number of GPUs.
68    opt = tf.train.RMSPropOptimizer(0.001 * hvd.size())
69    # Horovod: add Horovod Distributed Optimizer.
70    opt = hvd.DistributedOptimizer(opt)
71    global_step = tf.train.get_or_create_global_step()
72    train_op = opt.minimize(loss, global_step=global_step)
73    hooks = [
74        # Horovod: BroadcastGlobalVariablesHook broadcasts initial variable states
75        # from rank 0 to all other processes. This is necessary to ensure consistent
76        # initialization of all workers when training is started with random weights
77        # or restored from a checkpoint.
78        hvd.BroadcastGlobalVariablesHook(0),
79        # Horovod: adjust number of steps based on number of GPUs.
80        tf.train.StopAtStepHook(last_step=10000 // hvd.size()),
81        tf.train.LoggingTensorHook(tensors={'step': global_step, 'loss': loss},
82                                   every_n_iter=10),
83    ]
84    # Horovod: pin GPU to be used to process local rank (one GPU per process)
85    config = tf.ConfigProto()
86    config.gpu_options.allow_growth = True
87    config.gpu_options.visible_device_list = str(hvd.local_rank())
88    # Horovod: save checkpoints only on worker 0 to prevent other workers from
89    # corrupting them.
90    checkpoint_dir = './checkpoints' if hvd.rank() == 0 else None
91    training_batch_generator = train_input_generator(x_train,
92                                                     y_train, batch_size=100)
93    # The MonitoredTrainingSession takes care of session initialization,
94    # restoring from a checkpoint, saving to a checkpoint, and closing when done
95    # or an error occurs.
96    with tf.train.MonitoredTrainingSession(checkpoint_dir=checkpoint_dir,
97                                           hooks=hooks,
98                                           config=config) as mon_sess:
99        while not mon_sess.should_stop():
100            # Run a training step synchronously.
101            image_, label_ = next(training_batch_generator)
102            mon_sess.run(train_op, feed_dict={image: image_, label: label_})
103    if hvd.rank() != 0:
104        return
105    checkpoint_file = tf.train.latest_checkpoint(checkpoint_dir)
106    tf.reset_default_graph()
107    saver = tf.train.import_meta_graph(serve_graph_file)
108    inputs_classes = tf.saved_model.utils.build_tensor_info(image)
109    outputs_classes = tf.saved_model.utils.build_tensor_info(predict)
110    signature = (tf.saved_model.signature_def_utils.build_signature_def(
111        inputs={tf.saved_model.signature_constants.CLASSIFY_INPUTS: inputs_classes},
112        outputs={tf.saved_model.signature_constants.CLASSIFY_OUTPUT_CLASSES: outputs_classes},
113        method_name=tf.saved_model.signature_constants.CLASSIFY_METHOD_NAME))
114    os.system("rm -rf ./output")
115    with tf.Session() as sess:
116       sess.run([tf.local_variables_initializer(), tf.tables_initializer()])
117       saver.restore(sess, checkpoint_file)
118       builder = tf.saved_model.builder.SavedModelBuilder('./output')
119       legacy_init_op = tf.group(tf.tables_initializer(), name='legacy_init_op')
120       builder.add_meta_graph_and_variables(sess, [tf.saved_model.tag_constants.SERVING], signature_def_map={'predict_images': signature}, legacy_init_op=legacy_init_op)
121       builder.save()
122if __name__ == "__main__":
123    tf.app.run()

上一篇
发布模型
下一篇
AIAK- Training Pytorch版