训练模型

Elasticsearch BES

  • 邀测版存储计算分离套餐介绍
  • 功能发布记录
  • 产品描述
    • 基本概念
    • 关键特性
    • 产品介绍
    • 产品性能
      • 4核16GB512GB通用型的3个数据节点实例基准性能指标
      • 8核16GB512GB计算型的3个数据节点实例基准性能测试
      • 16核32GB512GB计算型的3个数据节点实例基准性能指标
      • 4核8GB512GB计算型的3个数据节点实例基准性能测试
      • 8核32GB512GB通用型的3个数据节点实例基准性能指标
      • 16核64GB512GB通用型的3个数据节点实例基准性能指标
      • 概述
  • Python-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • Kibana
    • Kibana使用指南
  • Logstash
    • Logstash使用指南
    • 实例管理
      • 实例详情信息
      • 实例扩缩容
      • 管道管理
      • 创建实例
      • 实例列表
      • 删除实例
  • 开发指南
    • Elasticsearch Restful API
    • 通过其他客户端访问Elasticsearch
    • Elasticsearch Java客户端
      • Low Level REST Client
      • Rest Client操作向量索引示例
      • Java REST Client
      • High Level REST Client
  • Java-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • 向量检索特性
    • 资源规划
    • 关键概念
    • 应用场景
    • 快速入门
    • 算法介绍
    • 能力简介
    • 向量数据库
    • 操作指南
      • 写入和查询数据
      • 训练模型
      • 向量索引缓存管理
      • 创建索引
      • 基于Reciprocal Rank Fusion的融合查询
      • 参数优化
      • 7.4版本兼容说明
    • 最佳实践
      • 调优建议
      • BES RAG 最佳实践:基于LangChain+BES的私域知识的QA问答系统
    • 迁移方案
      • ES dense vector 切换为BES方案
  • ELK
    • 基于ELK构建日志分析系统
  • 增强特性
    • 慢查询隔离
    • 百度NLP中文分词词典动态更新
    • 百度NLP中文分词插件
    • 基于段文件的主从复制
    • 基于BOS的冷热数据分离
  • 快速入门
    • 访问Elasticsearch服务
    • 导入数据并搜索
    • 创建集群
    • 集群资源评估
  • 典型实践
    • 使用BSC将BOS中的数据导入Es
    • 使用BSC将Kafka中的数据导入Es
    • 基于CCR实现多集群跨地域高可用
    • 基于节点磁盘介质的冷热数据分离
  • 服务等级协议SLA
    • 数据迁移服务协议
    • BES服务等级协议SLA(V1.0)
  • 常见问题
    • Spark访问Es常见问题
    • Elasticsearch系统常见问题
    • 常见问题总览
  • 产品定价
    • 预付费
    • 计费说明
    • 配置变更费用说明
    • 后付费
  • API文档
    • 概述
    • 自动续费相关接口
      • 续费列表
      • 查看自动续费
      • 查看自动续费规则列表
      • 续费操作
      • 更新自动续费规则
      • 删除自动续费规则
      • 创建自动续费规则
    • 插件配置接口
      • 上传自定义插件
      • 卸载系统默认插件
      • 上传nlp词典
      • 安装系统默认插件
      • 获取默认和自定义插件列表
      • 卸载自定义插件
      • 安装自定义插件
      • 删除自定义插件
      • 查看nlp词典
    • 日志管理相关接口
      • 查看日志导出任务记录
      • 创建日志导出任务
      • 日志设置
      • 日志查询
    • 标签接口
      • 查询标签列表
      • 批量新增标签
      • 单个集群更新标签
    • 智能巡检接口
      • 查看近7天已完成的巡检任务列表
      • 近七天巡检概况
      • 查看手动巡检任务的配置
      • 集群巡检授权
      • 列举所有可选巡检项
      • 查询是否可以提交巡检任务
      • 最新一次巡检概况
      • 查看集群是否开启自动巡检
      • 修改手动巡检任务的配置
      • 开启或关闭自动巡检
      • 提交手动巡检任务
      • 查询今日已执行完成的手动巡检次数
      • 查看某巡检任务的执行状态和结果
    • 集群相关接口
      • 获取操作历史信息
      • 删除集群
      • 新增节点类型
      • 开启和关闭https
      • 查看集群详情信息
      • 重置密码
      • EIP绑定
      • EIP解绑
      • 是否开启Grafana监控
      • 获取数据量观测数据
      • 查看集群列表
      • 上传NLP分词词典
      • 创建集群
      • 智能评估
      • 集群blb信息
      • 用户可用代金券列表
      • 停止集群
      • 扩容集群
      • 启动集群
      • 重启集群
    • 实例相关接口
      • 批量停止实例
      • 启动实例
      • 查看缩容节点列表
      • 数据迁移
      • 数据迁移系统建议
      • 批量启动实例
      • 数据迁移回滚
      • 停止实例
      • 数据迁移节点列表
      • 删除实例
    • 配置修改相关接口
      • 获取同义词文件列表
      • 查看集群配置
      • 删除同义词配置文件
      • 上传同义词配置文件
      • 配置修改
    • 定时调度
      • 更新定时调度任务
      • 删除定时调度任务
      • 创建和更新定时调度任务
      • 查看定时调度任务
  • API3.0
    • 集群相关接口
      • 删除集群
  • Elasticsearch
    • 用户手册
      • YML参数配置
      • 权限管理
      • 智能巡检
      • 数据迁移
      • 基于BOS的快照与恢复
      • 集群列表
      • 账号使用说明
      • 多可用区部署
      • 定时调度
      • 数据量观测
      • 日志查询
        • 日志查询(旧)
        • 日志查询(新)
        • 日志导出
        • 查询语法
      • 集群配置
        • 配置同义词
      • 插件管理
        • 上传与安装自定义插件
        • Elasticsearch插件列表
        • 系统默认插件
          • analysis-pinyin拼音分词插件
          • IK中文分词插件与动态更新词典
          • compression-zstd插件
          • CCR插件
          • 限流插件
          • 动态同义词插件
          • 简繁体转换插件
          • ingest attachment插件
          • SQL插件
      • 配置变更
        • 节点数据迁移
        • 集群变配说明与建议
        • 集群扩缩容
      • 版本升级
        • 升级版本
        • 内核版本说明
        • 升级检查
      • 集群监控报警
        • 监控查看及指标说明
        • 配置报警
      • 集群管理
        • 集群重启
        • 变更HTTPS协议用户指南
        • 节点启停
        • 查看集群信息
        • 集群创建
        • 公网绑定
        • 修改集群名称
        • 跨可用区迁移集群
        • 集群删除
        • 集群列表
        • 自动续费
        • 密码重置
        • ES服务区域代码
      • 账户管理
        • 多用户访问控制
所有文档
menu
没有找到结果,请重新输入

Elasticsearch BES

  • 邀测版存储计算分离套餐介绍
  • 功能发布记录
  • 产品描述
    • 基本概念
    • 关键特性
    • 产品介绍
    • 产品性能
      • 4核16GB512GB通用型的3个数据节点实例基准性能指标
      • 8核16GB512GB计算型的3个数据节点实例基准性能测试
      • 16核32GB512GB计算型的3个数据节点实例基准性能指标
      • 4核8GB512GB计算型的3个数据节点实例基准性能测试
      • 8核32GB512GB通用型的3个数据节点实例基准性能指标
      • 16核64GB512GB通用型的3个数据节点实例基准性能指标
      • 概述
  • Python-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • Kibana
    • Kibana使用指南
  • Logstash
    • Logstash使用指南
    • 实例管理
      • 实例详情信息
      • 实例扩缩容
      • 管道管理
      • 创建实例
      • 实例列表
      • 删除实例
  • 开发指南
    • Elasticsearch Restful API
    • 通过其他客户端访问Elasticsearch
    • Elasticsearch Java客户端
      • Low Level REST Client
      • Rest Client操作向量索引示例
      • Java REST Client
      • High Level REST Client
  • Java-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • 向量检索特性
    • 资源规划
    • 关键概念
    • 应用场景
    • 快速入门
    • 算法介绍
    • 能力简介
    • 向量数据库
    • 操作指南
      • 写入和查询数据
      • 训练模型
      • 向量索引缓存管理
      • 创建索引
      • 基于Reciprocal Rank Fusion的融合查询
      • 参数优化
      • 7.4版本兼容说明
    • 最佳实践
      • 调优建议
      • BES RAG 最佳实践:基于LangChain+BES的私域知识的QA问答系统
    • 迁移方案
      • ES dense vector 切换为BES方案
  • ELK
    • 基于ELK构建日志分析系统
  • 增强特性
    • 慢查询隔离
    • 百度NLP中文分词词典动态更新
    • 百度NLP中文分词插件
    • 基于段文件的主从复制
    • 基于BOS的冷热数据分离
  • 快速入门
    • 访问Elasticsearch服务
    • 导入数据并搜索
    • 创建集群
    • 集群资源评估
  • 典型实践
    • 使用BSC将BOS中的数据导入Es
    • 使用BSC将Kafka中的数据导入Es
    • 基于CCR实现多集群跨地域高可用
    • 基于节点磁盘介质的冷热数据分离
  • 服务等级协议SLA
    • 数据迁移服务协议
    • BES服务等级协议SLA(V1.0)
  • 常见问题
    • Spark访问Es常见问题
    • Elasticsearch系统常见问题
    • 常见问题总览
  • 产品定价
    • 预付费
    • 计费说明
    • 配置变更费用说明
    • 后付费
  • API文档
    • 概述
    • 自动续费相关接口
      • 续费列表
      • 查看自动续费
      • 查看自动续费规则列表
      • 续费操作
      • 更新自动续费规则
      • 删除自动续费规则
      • 创建自动续费规则
    • 插件配置接口
      • 上传自定义插件
      • 卸载系统默认插件
      • 上传nlp词典
      • 安装系统默认插件
      • 获取默认和自定义插件列表
      • 卸载自定义插件
      • 安装自定义插件
      • 删除自定义插件
      • 查看nlp词典
    • 日志管理相关接口
      • 查看日志导出任务记录
      • 创建日志导出任务
      • 日志设置
      • 日志查询
    • 标签接口
      • 查询标签列表
      • 批量新增标签
      • 单个集群更新标签
    • 智能巡检接口
      • 查看近7天已完成的巡检任务列表
      • 近七天巡检概况
      • 查看手动巡检任务的配置
      • 集群巡检授权
      • 列举所有可选巡检项
      • 查询是否可以提交巡检任务
      • 最新一次巡检概况
      • 查看集群是否开启自动巡检
      • 修改手动巡检任务的配置
      • 开启或关闭自动巡检
      • 提交手动巡检任务
      • 查询今日已执行完成的手动巡检次数
      • 查看某巡检任务的执行状态和结果
    • 集群相关接口
      • 获取操作历史信息
      • 删除集群
      • 新增节点类型
      • 开启和关闭https
      • 查看集群详情信息
      • 重置密码
      • EIP绑定
      • EIP解绑
      • 是否开启Grafana监控
      • 获取数据量观测数据
      • 查看集群列表
      • 上传NLP分词词典
      • 创建集群
      • 智能评估
      • 集群blb信息
      • 用户可用代金券列表
      • 停止集群
      • 扩容集群
      • 启动集群
      • 重启集群
    • 实例相关接口
      • 批量停止实例
      • 启动实例
      • 查看缩容节点列表
      • 数据迁移
      • 数据迁移系统建议
      • 批量启动实例
      • 数据迁移回滚
      • 停止实例
      • 数据迁移节点列表
      • 删除实例
    • 配置修改相关接口
      • 获取同义词文件列表
      • 查看集群配置
      • 删除同义词配置文件
      • 上传同义词配置文件
      • 配置修改
    • 定时调度
      • 更新定时调度任务
      • 删除定时调度任务
      • 创建和更新定时调度任务
      • 查看定时调度任务
  • API3.0
    • 集群相关接口
      • 删除集群
  • Elasticsearch
    • 用户手册
      • YML参数配置
      • 权限管理
      • 智能巡检
      • 数据迁移
      • 基于BOS的快照与恢复
      • 集群列表
      • 账号使用说明
      • 多可用区部署
      • 定时调度
      • 数据量观测
      • 日志查询
        • 日志查询(旧)
        • 日志查询(新)
        • 日志导出
        • 查询语法
      • 集群配置
        • 配置同义词
      • 插件管理
        • 上传与安装自定义插件
        • Elasticsearch插件列表
        • 系统默认插件
          • analysis-pinyin拼音分词插件
          • IK中文分词插件与动态更新词典
          • compression-zstd插件
          • CCR插件
          • 限流插件
          • 动态同义词插件
          • 简繁体转换插件
          • ingest attachment插件
          • SQL插件
      • 配置变更
        • 节点数据迁移
        • 集群变配说明与建议
        • 集群扩缩容
      • 版本升级
        • 升级版本
        • 内核版本说明
        • 升级检查
      • 集群监控报警
        • 监控查看及指标说明
        • 配置报警
      • 集群管理
        • 集群重启
        • 变更HTTPS协议用户指南
        • 节点启停
        • 查看集群信息
        • 集群创建
        • 公网绑定
        • 修改集群名称
        • 跨可用区迁移集群
        • 集群删除
        • 集群列表
        • 自动续费
        • 密码重置
        • ES服务区域代码
      • 账户管理
        • 多用户访问控制
  • 文档中心
  • arrow
  • ElasticsearchBES
  • arrow
  • 向量检索特性
  • arrow
  • 操作指南
  • arrow
  • 训练模型
本页目录
  • 训练模型
  • request
  • response
  • 查询模型
  • request
  • response
  • 删除模型
  • request
  • response
  • 使用示例

训练模型

更新时间:2025-08-20

使用ivf、ivf_pq算法需要提前训练模型,训练模型相关API如下:

训练模型

用户需要提前创建索引并设定字段类型为"bpack_vector",写入训练样本数据后,方可对样本数据进行训练,训练模型API如下:

request

JSON
1POST /_bpack/_knn/models/_train
2POST /_bpack/_knn/models/{model_id}/_train
3{
4    "training_index": "train-index-name",
5    "training_field": "train-field-name",
6    "dims": 16,
7    "max_training_vector_count": 1200,
8    "search_size": 100,
9    "description": "My model",
10    "index_type":  "ivf_pq", 
11    "space_type": "l2",
12    "parameters":{
13        "nlist":128,
14        "nprobes":8,
15        "m":8,
16        "code_size":8
17    }
18}

response

JSON
1{
2    "model_id": "model_x"
3}

path参数:

参数 说明
model_id 模型 ID。

body参数:

参数 说明
training_index 选择需要训练的索引。
training_field 选择需要训练的字段,需要在索引中的knn vector字段并且维度相符。
dims 维度。
max_training_vector_count (可选)索引中用于训练的最大向量数。默认为索引中的所有向量。
search_size (可选)训练数据是通过scroll查询从索引中查询到的,这个参数是定义每次scroll查询的size。默认为 10,000。
description (可选)用户提供的模型文字描述简介。
index_type (可选)索引类型,可选择ivf和ivf_pq,默认为ivf。
space_type (可选)向量距离算法,支持l2, innerproduct。
parameters (可选)具体算法参数。

index_type:

name 是否需要训练 支持的距离算法 说明
ivf true l2, innerproduct ivf算法,原理是基于聚类算法对向量进行分桶,搜索时候仅搜索部分桶,从而提升搜索效率。
ivf_pq true l2, innerproduct 配合将ivf算法与PQ算法进行了结合,通过PQ降低原始向量的存储开销。

IVF parameters

参数 是否必填 默认值 是否可修改 说明
nlist false 4 false 向量划分的桶数。较高的值可能会以内存和训练延迟为代价换取更准确的搜索准确性。
nprobes false 1 false 查询期间要搜索的桶数。较高的值导致更准确但更慢的搜索。

IVF_PQ parameters

参数 是否必填 默认值 是否可修改 说明
nlist false 4 false 向量划分的桶数。较高的值可能会以内存和训练延迟为代价换取更准确的搜索准确性。
nprobes false 1 false 查询期间要搜索的桶数。较高的值导致更准确但更慢的搜索。
m false 1 false 代表将向量分成子向量的个数,子向量彼此独立编码。向量的维度必须能被 m 整除。最大值为 1024。
code_size false 8 false 代表将子向量编码的位数。推荐值为 8,不建议改为其他值。

查询模型

执行训练API后,可以对模型进行查询,查询到模型状态(state)为"created"后,方可正常使用。

request

JSON
1GET /_bpack/_knn/models/{model_id}?pretty

response

JSON
1{
2   "model_id" : "test-model",
3   "model_blob" : "SXdGbIAAAAAAAAAAAA...",
4   "state": "created", 
5   "timestamp": "2023-06-14T03:02:15.246736Z",
6   "description": "My model ivf_pq",
7   "error": "",
8   "index_type": "IVF",
9   "parameters": {},
10   "space_type": "innerproduct",
11   "dimension": 128
12}

说明

参数 说明
model_id 模型 ID。
model_blob 模型序列化后具体内容。
state 状态有"training"、"created"、"failed",在模型状态为"created"后,才可以正常使用。
timestamp 代表将子向量编码的位数。推荐值为 8,不建议改为其他值。
description 用户提供的模型文字描述简介。
error 错误详情。
index_type 索引类型。
parameters 具体算法参数。
space_type 向量距离算法。
dimension 维度。

删除模型

request

JSON
1DELETE /_bpack/_knn/models/{model_id}

response

JSON
1{
2  "model_id": {model_id},
3  "acknowledged": true
4}

使用示例

1、创建一个linear的索引,写入数据

JSON
1PUT my_index 
2{
3  "mappings": {
4    "properties": {
5      "field": { 
6        "type": "bpack_vector",
7        "dims": 4
8      }
9    }
10  }
11}
12
13POST my_index/_bulk
14{"index":{}}
15{"field":[3.5,4.5,6.5,6.5]}
16{"index":{}}
17{"field":[3.5,4.5,6.5,6.5]}
18{"index":{}}
19{"field":[5.5,6.5,6.5,6.5]}
20...

2、训练模型,这里以ivf_pq为示例。

JSON
1POST /_bpack/_knn/models/model_ivfpq/_train
2{
3    "training_index": "my_index",
4    "training_field": "field",
5    "dims": 4,
6    "max_training_vector_count": 100000,
7    "search_size": 1000,
8    "description": "My model,ivf_pq",
9    "index_type":  "ivf_pq", 
10    "space_type": "l2",
11    "parameters":{
12        "nlist":128,
13        "nprobes":8,
14        "m":8,
15        "code_size":8
16    }
17}
18
19{
20    "model_id": "model_ivfpq"
21}

3、查询模型状态,待到状态为created。

JSON
1GET /_bpack/_knn/models/model_ivfpq?pretty
2
3{
4   "model_id" : "model_ivfpq",
5   "model_blob" : "SXdGbIAAAAAAAAAAAA...",
6   "state": "created", 
7   "timestamp": "2023-06-14T03:02:15.246736Z",
8   "description": "My model,ivf_pq",
9   "error": "",
10   "index_type": "IVF_PQ",
11   "parameters": {},
12   "space_type": "l2",
13   "dimension": 128
14}

4、使用model_id创建 ivf\ivf_pq索引,之后即可正常使用索引和写入数据。

JSON
1PUT my_ivfpq_index 
2{
3  "settings": {
4    "index": {
5      "knn": true  
6    }
7  },
8  "mappings": {
9    "properties": {
10      "field_ivf_pq": { 
11        "type": "bpack_vector",
12        "model_id": "model_ivfpq"
13      }
14    }
15  }
16}

上一篇
写入和查询数据
下一篇
向量索引缓存管理