文本智能标注介绍及原理说明

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
所有文档
menu
没有找到结果,请重新输入

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
  • 文档中心
  • arrow
  • 全功能AI开发平台BML
  • arrow
  • 数据服务
  • arrow
  • 智能标注
  • arrow
  • 文本智能标注介绍及原理说明
本页目录
  • 一、启动智能标注获得智能标注数据
  • Step1 启动智能标注任务前的准备工作
  • Step2 创建文本智能标注任务
  • Step3 智能标注过程
  • 二、使用智能标注数据训练模型
  • 三、启动智能标注数据优化流程
  • 四、再次启动智能标注
  • 五、文本智能标注原理说明
  • 平台智能标注原理
  • 智能标注数据训练模型
  • 六、文本智能标注常见问题

文本智能标注介绍及原理说明

更新时间:2025-08-21

欢迎您使用「文本智能标注」。您可以通过提供少量人工标注数据和大量无标注数据,通过文本智能标注能力进行自动标注,并将需要人工优先复审的样本筛选出来,辅助您快速完成数据标注工作。您可以获得大规模的智能标注数据,并将数据用于模型的训练。本文将介绍说明如何利用「文本智能标注」获得智能标注数据,以及智能标注与后续如何使用智能标注数据训练模型。

详细使用「文本智能标注」的流程如下:

一、启动智能标注获得智能标注数据

Step1 启动智能标注任务前的准备工作

智能标注任务,是对一个数据集中的未标注数据进行智能标注。请您先在「数据管理/标注」模块,创建数据集,并上传一定量的已标注数据和未标注数据。具体数据量的要求,请见下文「创建文本智能标注任务」。

Step2 创建文本智能标注任务

您可以在「智能标注」功能页面下,选中「自然语言」查看文本智能标注的流程概述和说明。

image.png

在页面上,通过点击「创建智能标注任务」来选择对应操作的数据集。选择「文本分类」任务,数据集选择您想智能标注的数据集。

image.png

注意,请先检验所选择的数据集是否满足以下条件:

  1. 数据集中已标注数据量超过600条
  2. 每个标注标签的数据量超过50条
  3. 未标注数据的数据量超过600条

选择好数据集后,点击「启动智能标注」,平台将对您提交的数据集进行启动前的校验,并可在下方的任务栏中,查看到新建的智能标注任务,任务状态处于「数据校验中」。

Step3 智能标注过程

当数据校验无误后,系统将自动启动智能标注,页面将显示当前智能标注所处的流程状态。 如页面图中所示,智能标注过程分为三个部分,第四个部分为「前往模型训练」的说明,后文将详细说明。

下面,将对智能标注所涉及的三个阶段进行说明:

阶段一:智能标注预学习阶段

在本阶段,系统将使用您提交的已标注数据进行机器学习。预学习阶段预计耗时约40-60分钟不等,根据您的数据集中已标注数据的量而定。如果您需要中止预学习阶段,您可以点击「关闭智能标注」,则系统将重置已完成的智能学习状态。此时您的数据集中「已标注」和「未标注」的数据不会产生变化。

阶段二:智能标注阶段

完成智能标注预学习阶段,系统将自动进入智能标注阶段。此时系统将对您提交数据集下的「未标注」数据进行智能标注,智能标注过程的耗时跟您提交的未标注数据量正相关,即数据量越大,耗时将越长。您可以根据需要,也可「关闭智能标注」。此时注意,关闭智能标注后,已经完成的智能标注的数据,将被恢复为未标注数据。

Tips:按照我们的估算,预计5w条未标注数据,将消耗2小时进行智能标注。

阶段三:完成智能标注,查看智能标注数据

当完成智能标注后,您可前往您的数据集查看。此时数据集将被分为「未标注」、「已标注(人工)」和「已标注(智能)」三个标签。完成智能标注的数据,将放置在「已标注(智能)」中, 您可以对智能标注数据进行人工校验,完成校验的数据,将被转移到「已标注(人工)」,代表此样本确认无误,后文将详细说明智能标注的原理。智能标注前的「已标注」数据将放入「已标注(人工)」中,且数据不发生变化。

您也可以在「已标注(智能)」中,查看本次智能标注的准确率,以及智能标注数据的总样本数。 如果您对智能标注的准确率不满意,可以点击「优化智能标注效果」,来对全部的智能标注数据进行优化。

image.png

二、使用智能标注数据训练模型

如果您对智能标注的数据质量满意,您可以直接使用「已标注(人工)」和「已标注(智能)」下的数据,对模型进行训练。后文有详细介绍此步骤的原理。

您在配置任务时,在选择数据集的过程中,可以在「选择数据集-可选项」下,勾选「使用智能标注数据」,如果此数据集下有智能标注数据,训练任务时将会使用「已标注(智能)」的数据。

image.png

三、启动智能标注数据优化流程

如果您对数据质量不满意,可以在「已标注(智能)」页面中,通过点击「优化智能标注」进入优化流程。

image.png

进入后,平台将为您提供至多300条的优先校验样本,优先校验样本是平台挑选的机器较难确认的样本,同时也是对提升智能标注准确率最有帮助的样本。此部分样本将按照优先级从高到底排序,建议您按顺序逐一校验。

在优化流程的页面中,您将发现已完成校验的数量,当前的智能标注准确率情况。当您完成100条以上的样本校验后,「启动效果提升」按钮将置亮,您可以点击并启动优化智能标注的能力。

image.png

此过程将对您完成校验的样本重新学习,并对剩余智能标注数据进行重新标注。此过程不可关闭,请您耐心等待。完成优化后,将为您展示智能标注准确率的提升状况,并同时为您再次筛选出优先标注样本进行再次的校验和提升。通常情况下,此过程将持续3次,即您完成3次的样本校验。您也可以根据智能标注优化的效果,选择退出优化流程。

Tips:您也可以在启动优化智能标注前增加「未标注」数据,在优化智能标注过程中,也将把新提交的「未标注」数据进行智能标注。

如果您点击「退出优化效果」或您点击进入到了其他页面中,您在优化流程中的进度将会保存。下次返回后,将可以继续进行。

对样本的校验过程,将和文本的标注过程类似。当您发现样本的智能标注有误时,您可以点击选择正确的标签,点击「确认」后,样本将被放入到「已标注(人工)」中。

如果您对当前页的所有样本都判断为正确,则可以点击「本页全部确认」将全部样本添加到「已标注(人工)」中。

四、再次启动智能标注

如果您新建了一个文本智能标注任务,并且完成过一次智能标注。此时,您可以继续在此数据集下,增加「未标注」数据,并对新增的「未标注」数据进行智能标注。

image.png

Tips:您在再次启动智能标注前,建议先完成至少一次「优化智能标注」的过程。此时,智能标注的数据将比「优化智能标注」前质量更高。

五、文本智能标注原理说明

训练模型过程中,通常需要经历数据集准备(标注)、任务网络配置开发、模型的训练和部署等重要过程。很多时候,模型训练在数据准备阶段遇到数据量不足的问题,使模型开发过程迟迟不能启动。

平台推出的文本智能标注功能,目标是通过少量的已标注数据样本,来获得大规模的智能标注数据,通过减少人工逐一校验的工作,使用智能标注数据来训练小型网络模型,以获得效果和性能更优的模型预测服务。使用文本智能标注数据来训练模型的原理,即当前较为流行的「模型蒸馏」。

下面,将为您简要描述智能标注和模型蒸馏的原理。

平台智能标注原理

平台提供的文本智能标注,是使用了当前中文模型效果最好的预训练模型ERNIE2.0。完成对少量人工标注数据学习后,可以对未标注数据进行预测,从而获得智能标注数据。由于预测的数据质量,与您提供的人工标注数据的质量强相关。建议您完成智能标注后,查看数据标注的质量效果,然后根据数据情况来判断是否进入到优化智能标注的流程中。

优化智能标注的过程中,系统根据算法挑选出优先标注样本。您完成对优先校验样本的人工校验后,系统将使用此部分样本重新训练模型,从而获得更精准的智能标注数据。

智能标注数据训练模型

ERNIE完成对人工标注数据学习后,生成的模型称之为「教师模型」,通过预测的大规模无监督语料,把「教师模型」的泛化能力通过模型训练教给「学生模型」。如下图所示:

image.png

所以,您可以使用智能标注数据,在训练任务配置中,不使用ERNIE预训练模型。通过选择小型的网络,即可训练出效果逼近教师模型ERNIE Large的模型。且此模型的也保留了小网络的预测性能,可以在您的业务中达到具体业务使用的目标。

六、文本智能标注常见问题

问:智能标注可以支持哪几种类型的数据?

答:目前平台提供的文本智能标注,仅支持「单文本-单标签」的数据类型。

问:我是否能够对智能标注数据进行删除操作?

答:可以,您可以处理所有智能标注数据。通常情况下,您可以根据后续模型训练所需,对某些样本进行删除,以减少模型训练过程中的干扰。

问:为什么效果没有提升到一定程度,就提示已经完成优化智能标注?

答:因为您的智能标注数据过少,通过人工标注即可更好的完成校验;

问:为什么我使用智能标注数据训练模型效果不佳。不如只使用人工已标注的数据训练的效果?

答:您可以先进入「优化智能标注」过程,平台将为您挑选提升效果最佳的样本,将您的智能标注数据进行优化。同时您也需要查看数据集的数据分布是否与验证集的分布保持一致。

问:我将优化流程中的样本,都删除了,没法启动优化智能标注了,改怎么办?

答:您可以对此数据集增加「未标注」数据,然后返回到「智能标注」任务页面下,找到此数据集对应的智能标注任务,点击「再次启动」。系统将重新启动智能标注过程,并重置「优化流程」

问:完成智能标注后,我是否能在数据集新增带有新标签的标注数据?

答:您可以上传标注数据。但请注意,如果您上传的已标注数据带有新的标签(或您在已经完成智能标注任务的数据集上新增标签),将会影响智能标注质量。如果您需要使用带有新标签的数据,建议您新建数据集,并将全部人工标注数据导入后,再根据智能标注启动条件来启动新的智能标注任务。

问:为什么启动智能标注任务,或启动优化任务时,有时会不成功?

答:目前平台集中公测阶段,因算力限制,仅提供给一种任务的使用。即如果您已经启动了智能标注任务,则无法在另一个智能标注任务中启动优化任务。如果您有业务中的需求,可加入技术交流群,联系工作人员;

问:非中文语种的数据,可以使用智能标注吗?

答:目前平台仅支持中文的智能标注。不支持其他语种的智能标注任务。

问:为什么我使用智能标注数据训练模型,效果无明显提升?

答:不同场景和行业的数据集,使用智能标注数据提升效果不同。建议您针对智能标注数据进行优化流程,在优化流程中将有优先校验样本进行人工校验。完成至少一次优化流程,然后再使用智能标注数据进行模型训练。

上一篇
公有云服务调用数据反馈
下一篇
图像智能标注介绍说明