010-NLP算法

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
所有文档
menu
没有找到结果,请重新输入

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
  • 文档中心
  • arrow
  • 全功能AI开发平台BML
  • arrow
  • 模型训练
  • arrow
  • 可视化建模
  • arrow
  • 组件说明
  • arrow
  • 010-NLP算法
本页目录
  • Bert命名实体识别
  • Bert词性标注
  • Bert实体-关系组件
  • Bert文本相似度
  • Fasttext文本分类
  • LDA主题模型

010-NLP算法

更新时间:2025-08-21

NLP算法

Bert命名实体识别

BERT 采用了 Transformer Encoder 的模型来作为语言模型,Transformer模型完全抛弃了 RNN/CNN 等结构,而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上,加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络,然后在新的语料上重新训练来进行 fine-tune。 Bert命名实体识别模型将句子输入到bert中,在bert输出后连接一个crf层得到最后结果,输入的数据格式应满足BIO的标注格式。

输入

  • 输入文本数据集,标注数据常采用BIO的标注方式。

输出

  • 输出Bert命名实体识别模型。

算子参数

参数名称 是否必选 参数描述 默认值
batch_size 是 训练过程中的batch_size 范围:[1, inf)。 4
epoch 是 训练过程中的训练轮数 范围:[1, inf)。 1
do_lower_case 是 输入文本是否小写, 对于中文文本应当设置为True。 开启
学习率 是 训练开始时的学习率 范围:[0.0, 1.0]。 3e-05
序列最大长度,超过(序列最大长度-1)的输入字将被截取掉 是 序列最大长度 范围:[2, inf)。 128
warmup_proportion 是 进行线性学习率预热的训练比例 范围:[0.0, 1.0]。 0.1
save_checkpoints_steps 是 保存checkpoint的频率 范围:[1, inf)。 1000
训练集/验证集划分比例 是 训练集合比例设置成 1 则不使用验证集。 范围:[0.01, 1.0]。 0.8
选择预训练模型 是 选择预训练模型 中文训练模型

字段参数

参数名称 是否必选 参数描述 默认值
文本列 是 请选择文本列,句子分字,字之间必须以空格间隔,类型为字符串。 无
标签列 是 请选择标签列,采用BIO格式标注方式,标签之间必须以空格间隔且个数和文本列相同,类型为字符串。 无

使用示例

  1. BIO方式标注的数据。

image.png

  1. 构件算子结构,完成训练,如果训练失败提示oom信息,请您增加内存后重新训练。

image.png

Bert词性标注

BERT 采用了 Transformer Encoder 的模型来作为语言模型,Transformer模型完全抛弃了 RNN/CNN 等结构,而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上,加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络,然后在新的语料上重新训练来进行 fine-tune。 Bert词性标注模型为:BERT + CRF,输入的数据格式应满足BIO的标注格式。

输入

  • 输入文本数据集,标注数据常采用BIO的标注方式。

输出

  • 输出Bert词性标注模型。

算子参数

参数名称 是否必选 参数描述 默认值
batch_size 是 训练过程中的batch_size 范围:[1, inf)。 4
epoch 是 训练过程中的训练轮数 范围:[1, inf)。 1
do_lower_case 是 输入文本是否小写, 对于中文文本应当设置为True。 开启
学习率 是 训练开始时的学习率 范围:[0.0, 1.0]。 3e-05
序列最大长度,超过(序列最大长度-1)的输入字将被截取掉 是 序列最大长度 范围:[2, inf)。 128
warmup_proportion 是 进行线性学习率预热的训练比例 范围:[0.0, 1.0]。 0.1
save_checkpoints_steps 是 保存checkpoint的频率 范围:[1, inf)。 1000
训练集/验证集划分比例 是 训练集合比例设置成 1 则不使用验证集。 范围:[0.01, 1.0]。 0.8
选择预训练模型 是 选择预训练模型 中文训练模型

字段参数

参数名称 是否必选 参数描述 默认值
文本列 是 请选择文本列,句子分字,字之间必须以空格间隔,类型为字符串。 无
标签列 是 请选择标签列,采用BIO格式标注方式,标签之间必须以空格间隔且个数和文本列相同,类型为字符串。 无

使用示例

  1. BIO方式标注的数据。

image.png

  1. 构件算子结构,完成训练,如果训练失败提示oom信息,请您增加内存后重新训练。

image.png

  1. 查看预测结果。

image.png

Bert实体-关系组件

BERT 采用了 Transformer Encoder 的模型来作为语言模型,Transformer模型完全抛弃了 RNN/CNN 等结构,而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上,加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络,然后在新的语料上重新训练来进行 fine-tune。 Bert实体-关系模型:BERT + Fine-tuning。

输入

  • 输入数据集,特征列按顺序选择两列实体与一列文本(类型为字符串类型)。

输出

  • 输出Bert实体-关系组件模型。

算子参数

参数名称 是否必选 参数描述 默认值
batch_size 是 训练过程中的batch_size 范围:[1, inf)。 4
epoch 是 训练过程中的训练轮数 范围:[1, inf)。 1
do_lower_case 是 输入文本是否小写, 对于中文文本应当设置为True。 开启
学习率 是 训练开始时的学习率 范围:[0.0, 1.0]。 3e-05
序列最大长度 是 序列最大长度 范围:[2, inf)。 128
warmup_proportion 是 进行线性学习率预热的训练比例 范围:[0.0, 1.0]。 0.1
save_checkpoints_steps 是 保存checkpoint的频率 范围:[1, inf)。 1000
训练集/验证集划分比例 是 训练集合比例设置成 1 则不使用验证集。 范围:[0.01, 1.0]。 0.8
选择预训练模型 是 选择预训练模型 中文训练模型

字段参数

参数名称 是否必选 参数描述 默认值
文本列 是 按顺序选择两列实体与一列文本(类型为字符串类型)。 无
标签列 是 选择一列标签列。 无

使用示例

构建算子结构,配置参数,完成训练。

image.png

Bert文本相似度

BERT 采用了 Transformer Encoder 的模型来作为语言模型,Transformer模型完全抛弃了 RNN/CNN 等结构,而完全采用 Attention 机制来进行 input-output 之间关系的计算。 Fine-tuning 方式是指在已经训练好的语言模型的基础上,加入少量的 task-specific parameters, 例如对于分类问题在语言模型基础上加一层 softmax 网络,然后在新的语料上重新训练来进行 fine-tune。 Bert 文本相似度模型:BERT + Fine-tuning。

输入

  • 输入数据集,特征列为两列文本列(类型为字符串类型),标签列为一列文本列(类型为整型)。

输出

  • 输出Bert文本相似度模型。

算子参数

参数名称 是否必选 参数描述 默认值
batch_size 是 训练过程中的batch_size 范围:[1, inf)。 4
epoch 是 训练过程中的训练轮数 范围:[1, inf)。 1
do_lower_case 是 输入文本是否小写, 对于中文文本应当设置为True。 开启
学习率 是 训练开始时的学习率 范围:[0.0, 1.0]。 3e-05
序列最大长度 是 序列最大长度 范围:[2, inf)。 128
warmup_proportion 是 进行线性学习率预热的训练比例 范围:[0.0, 1.0]。 0.1
save_checkpoints_steps 是 保存checkpoint的频率 范围:[1, inf)。 1000
训练集/验证集划分比例 是 训练集合比例设置成 1 则不使用验证集。 范围:[0.01, 1.0]。 0.8
选择预训练模型 是 选择预训练模型。 中文训练模型

字段参数

参数名称 是否必选 参数描述 默认值
文本列 是 选择两列文本列(类型为字符串类型) 无
标签列 是 选择一列文本列(类型为整型) 无

使用示例

构建算子结构,配置参数,完成训练。

image.png

Fasttext文本分类

Fasttext 是一种简单有效的句子分类算法, 通过词向量以及 n-gram 向量的平均值计算出句子的向量表示,再通过全连接层网络对句子进行分类。

输入

  • 输入一个数据集,特征列需要是字符串列表或字符串类型(如果是字符串类型,假设字符串已经经过了分词,以空格或tab分割),标签列需要是枚举类型。

输出

  • 输出Fasttext模型,可以使用python预测组件进行预测。

算子参数

参数名称 是否必选 参数描述 默认值
学习率 是 学习率 范围:[0.01, 1.0]。 0.10
词向量维度 是 词向量维度 范围:[50, 500]。 100
上下文窗口 是 训练词向量考虑的上下文窗口大小 范围:[3, 15]。 5
迭代轮数 是 算法运行的 epoch 数,迭代几轮训练集 范围:[1, 100]。 5
单词最小出现次数 是 小于该数值的单词记为OOV 范围:[1, 10]。 1
负采样个数 是 负采样个数 范围:[1, 20]。 5
ngarm数 是 ngram数 范围:[1, 5]。 1
损失函数 是 损失函数,目前支持:
softmax
hs
ns
ova
softmax

字段参数

参数名称 是否必选 参数描述 默认值
输入列 是 必须是字符串列表或字符串类型。如果是字符串类型,需要提前以空格或tab分词。 无
标签列 是 需要是枚举类型。 无

使用示例

构建算子结构,配置参数,完成训练。

image.png

LDA主题模型

LDA 在主题模型中占有非常重要的地位,常用来文本分类,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。

输入

  • 输入一个数据集,输入列为字符串数组类型(既经过分词后的数据)。

输出

  • 输出LDA主题模型。

算子参数

参数名称 是否必选 参数描述 默认值
主题数量 是 主题数量(聚簇中心数量) 范围:[2, inf)。 10
优化器 是 优化器用来学习LDA模型,当前支持:
online:Online Variational Bayes和em:Expectation-Maximization
online
Dirichlet分布的参数α 否 文档在主题上分布的先验参数(超参数α),值越大推断出得分布越平滑 范围:[1.000000000000001, inf)。 无
Dirichlet分布的参数β 否 主题在单词上的先验分布参数,值越大推断出得分布越平滑 范围:[1.000000000000001, inf)。 无
采样率 是 小批量梯度下降的每次迭代中要采样和使用的语料的比例 范围:[1.0E-15, 1.0]。 0.05
最大迭代轮数 是 当迭代次数大于该数值时,停止迭代 范围:[1, inf)。 20
随机种子 否 随机数种子。 无

字段参数

参数名称 是否必选 参数描述 默认值
输入列 是 需要做LDA的列,类型需要是字符串数组。 无

使用示例

构建算子结构,配置参数,完成训练。

image.png

上一篇
014-自然语言处理组件
下一篇
016-统计分析组件