监控查看及指标说明

Elasticsearch BES

  • 邀测版存储计算分离套餐介绍
  • 功能发布记录
  • 产品描述
    • 基本概念
    • 关键特性
    • 产品介绍
    • 产品性能
      • 4核16GB512GB通用型的3个数据节点实例基准性能指标
      • 8核16GB512GB计算型的3个数据节点实例基准性能测试
      • 16核32GB512GB计算型的3个数据节点实例基准性能指标
      • 4核8GB512GB计算型的3个数据节点实例基准性能测试
      • 8核32GB512GB通用型的3个数据节点实例基准性能指标
      • 16核64GB512GB通用型的3个数据节点实例基准性能指标
      • 概述
  • Python-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • Kibana
    • Kibana使用指南
  • Logstash
    • Logstash使用指南
    • 实例管理
      • 实例详情信息
      • 实例扩缩容
      • 管道管理
      • 创建实例
      • 实例列表
      • 删除实例
  • 开发指南
    • Elasticsearch Restful API
    • 通过其他客户端访问Elasticsearch
    • Elasticsearch Java客户端
      • Low Level REST Client
      • Rest Client操作向量索引示例
      • Java REST Client
      • High Level REST Client
  • Java-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • 向量检索特性
    • 资源规划
    • 关键概念
    • 应用场景
    • 快速入门
    • 算法介绍
    • 能力简介
    • 向量数据库
    • 操作指南
      • 写入和查询数据
      • 训练模型
      • 向量索引缓存管理
      • 创建索引
      • 基于Reciprocal Rank Fusion的融合查询
      • 参数优化
      • 7.4版本兼容说明
    • 最佳实践
      • 调优建议
      • BES RAG 最佳实践:基于LangChain+BES的私域知识的QA问答系统
    • 迁移方案
      • ES dense vector 切换为BES方案
  • ELK
    • 基于ELK构建日志分析系统
  • 增强特性
    • 慢查询隔离
    • 百度NLP中文分词词典动态更新
    • 百度NLP中文分词插件
    • 基于段文件的主从复制
    • 基于BOS的冷热数据分离
  • 快速入门
    • 访问Elasticsearch服务
    • 导入数据并搜索
    • 创建集群
    • 集群资源评估
  • 典型实践
    • 使用BSC将BOS中的数据导入Es
    • 使用BSC将Kafka中的数据导入Es
    • 基于CCR实现多集群跨地域高可用
    • 基于节点磁盘介质的冷热数据分离
  • 服务等级协议SLA
    • 数据迁移服务协议
    • BES服务等级协议SLA(V1.0)
  • 常见问题
    • Spark访问Es常见问题
    • Elasticsearch系统常见问题
    • 常见问题总览
  • 产品定价
    • 预付费
    • 计费说明
    • 配置变更费用说明
    • 后付费
  • API文档
    • 概述
    • 自动续费相关接口
      • 续费列表
      • 查看自动续费
      • 查看自动续费规则列表
      • 续费操作
      • 更新自动续费规则
      • 删除自动续费规则
      • 创建自动续费规则
    • 插件配置接口
      • 上传自定义插件
      • 卸载系统默认插件
      • 上传nlp词典
      • 安装系统默认插件
      • 获取默认和自定义插件列表
      • 卸载自定义插件
      • 安装自定义插件
      • 删除自定义插件
      • 查看nlp词典
    • 日志管理相关接口
      • 查看日志导出任务记录
      • 创建日志导出任务
      • 日志设置
      • 日志查询
    • 标签接口
      • 查询标签列表
      • 批量新增标签
      • 单个集群更新标签
    • 智能巡检接口
      • 查看近7天已完成的巡检任务列表
      • 近七天巡检概况
      • 查看手动巡检任务的配置
      • 集群巡检授权
      • 列举所有可选巡检项
      • 查询是否可以提交巡检任务
      • 最新一次巡检概况
      • 查看集群是否开启自动巡检
      • 修改手动巡检任务的配置
      • 开启或关闭自动巡检
      • 提交手动巡检任务
      • 查询今日已执行完成的手动巡检次数
      • 查看某巡检任务的执行状态和结果
    • 集群相关接口
      • 获取操作历史信息
      • 删除集群
      • 新增节点类型
      • 开启和关闭https
      • 查看集群详情信息
      • 重置密码
      • EIP绑定
      • EIP解绑
      • 是否开启Grafana监控
      • 获取数据量观测数据
      • 查看集群列表
      • 上传NLP分词词典
      • 创建集群
      • 智能评估
      • 集群blb信息
      • 用户可用代金券列表
      • 停止集群
      • 扩容集群
      • 启动集群
      • 重启集群
    • 实例相关接口
      • 批量停止实例
      • 启动实例
      • 查看缩容节点列表
      • 数据迁移
      • 数据迁移系统建议
      • 批量启动实例
      • 数据迁移回滚
      • 停止实例
      • 数据迁移节点列表
      • 删除实例
    • 配置修改相关接口
      • 获取同义词文件列表
      • 查看集群配置
      • 删除同义词配置文件
      • 上传同义词配置文件
      • 配置修改
    • 定时调度
      • 更新定时调度任务
      • 删除定时调度任务
      • 创建和更新定时调度任务
      • 查看定时调度任务
  • API3.0
    • 集群相关接口
      • 删除集群
  • Elasticsearch
    • 用户手册
      • YML参数配置
      • 权限管理
      • 智能巡检
      • 数据迁移
      • 基于BOS的快照与恢复
      • 集群列表
      • 账号使用说明
      • 多可用区部署
      • 定时调度
      • 数据量观测
      • 日志查询
        • 日志查询(旧)
        • 日志查询(新)
        • 日志导出
        • 查询语法
      • 集群配置
        • 配置同义词
      • 插件管理
        • 上传与安装自定义插件
        • Elasticsearch插件列表
        • 系统默认插件
          • analysis-pinyin拼音分词插件
          • IK中文分词插件与动态更新词典
          • compression-zstd插件
          • CCR插件
          • 限流插件
          • 动态同义词插件
          • 简繁体转换插件
          • ingest attachment插件
          • SQL插件
      • 配置变更
        • 节点数据迁移
        • 集群变配说明与建议
        • 集群扩缩容
      • 版本升级
        • 升级版本
        • 内核版本说明
        • 升级检查
      • 集群监控报警
        • 监控查看及指标说明
        • 配置报警
      • 集群管理
        • 集群重启
        • 变更HTTPS协议用户指南
        • 节点启停
        • 查看集群信息
        • 集群创建
        • 公网绑定
        • 修改集群名称
        • 跨可用区迁移集群
        • 集群删除
        • 集群列表
        • 自动续费
        • 密码重置
        • ES服务区域代码
      • 账户管理
        • 多用户访问控制
所有文档
menu
没有找到结果,请重新输入

Elasticsearch BES

  • 邀测版存储计算分离套餐介绍
  • 功能发布记录
  • 产品描述
    • 基本概念
    • 关键特性
    • 产品介绍
    • 产品性能
      • 4核16GB512GB通用型的3个数据节点实例基准性能指标
      • 8核16GB512GB计算型的3个数据节点实例基准性能测试
      • 16核32GB512GB计算型的3个数据节点实例基准性能指标
      • 4核8GB512GB计算型的3个数据节点实例基准性能测试
      • 8核32GB512GB通用型的3个数据节点实例基准性能指标
      • 16核64GB512GB通用型的3个数据节点实例基准性能指标
      • 概述
  • Python-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • Kibana
    • Kibana使用指南
  • Logstash
    • Logstash使用指南
    • 实例管理
      • 实例详情信息
      • 实例扩缩容
      • 管道管理
      • 创建实例
      • 实例列表
      • 删除实例
  • 开发指南
    • Elasticsearch Restful API
    • 通过其他客户端访问Elasticsearch
    • Elasticsearch Java客户端
      • Low Level REST Client
      • Rest Client操作向量索引示例
      • Java REST Client
      • High Level REST Client
  • Java-SDK
    • 实例
    • 异常
    • 日志
    • 节点配置类型
    • 版本更新记录
    • 快速入门
    • 集群
    • BesClient
    • 安装SDK工具包
    • 概述
  • 向量检索特性
    • 资源规划
    • 关键概念
    • 应用场景
    • 快速入门
    • 算法介绍
    • 能力简介
    • 向量数据库
    • 操作指南
      • 写入和查询数据
      • 训练模型
      • 向量索引缓存管理
      • 创建索引
      • 基于Reciprocal Rank Fusion的融合查询
      • 参数优化
      • 7.4版本兼容说明
    • 最佳实践
      • 调优建议
      • BES RAG 最佳实践:基于LangChain+BES的私域知识的QA问答系统
    • 迁移方案
      • ES dense vector 切换为BES方案
  • ELK
    • 基于ELK构建日志分析系统
  • 增强特性
    • 慢查询隔离
    • 百度NLP中文分词词典动态更新
    • 百度NLP中文分词插件
    • 基于段文件的主从复制
    • 基于BOS的冷热数据分离
  • 快速入门
    • 访问Elasticsearch服务
    • 导入数据并搜索
    • 创建集群
    • 集群资源评估
  • 典型实践
    • 使用BSC将BOS中的数据导入Es
    • 使用BSC将Kafka中的数据导入Es
    • 基于CCR实现多集群跨地域高可用
    • 基于节点磁盘介质的冷热数据分离
  • 服务等级协议SLA
    • 数据迁移服务协议
    • BES服务等级协议SLA(V1.0)
  • 常见问题
    • Spark访问Es常见问题
    • Elasticsearch系统常见问题
    • 常见问题总览
  • 产品定价
    • 预付费
    • 计费说明
    • 配置变更费用说明
    • 后付费
  • API文档
    • 概述
    • 自动续费相关接口
      • 续费列表
      • 查看自动续费
      • 查看自动续费规则列表
      • 续费操作
      • 更新自动续费规则
      • 删除自动续费规则
      • 创建自动续费规则
    • 插件配置接口
      • 上传自定义插件
      • 卸载系统默认插件
      • 上传nlp词典
      • 安装系统默认插件
      • 获取默认和自定义插件列表
      • 卸载自定义插件
      • 安装自定义插件
      • 删除自定义插件
      • 查看nlp词典
    • 日志管理相关接口
      • 查看日志导出任务记录
      • 创建日志导出任务
      • 日志设置
      • 日志查询
    • 标签接口
      • 查询标签列表
      • 批量新增标签
      • 单个集群更新标签
    • 智能巡检接口
      • 查看近7天已完成的巡检任务列表
      • 近七天巡检概况
      • 查看手动巡检任务的配置
      • 集群巡检授权
      • 列举所有可选巡检项
      • 查询是否可以提交巡检任务
      • 最新一次巡检概况
      • 查看集群是否开启自动巡检
      • 修改手动巡检任务的配置
      • 开启或关闭自动巡检
      • 提交手动巡检任务
      • 查询今日已执行完成的手动巡检次数
      • 查看某巡检任务的执行状态和结果
    • 集群相关接口
      • 获取操作历史信息
      • 删除集群
      • 新增节点类型
      • 开启和关闭https
      • 查看集群详情信息
      • 重置密码
      • EIP绑定
      • EIP解绑
      • 是否开启Grafana监控
      • 获取数据量观测数据
      • 查看集群列表
      • 上传NLP分词词典
      • 创建集群
      • 智能评估
      • 集群blb信息
      • 用户可用代金券列表
      • 停止集群
      • 扩容集群
      • 启动集群
      • 重启集群
    • 实例相关接口
      • 批量停止实例
      • 启动实例
      • 查看缩容节点列表
      • 数据迁移
      • 数据迁移系统建议
      • 批量启动实例
      • 数据迁移回滚
      • 停止实例
      • 数据迁移节点列表
      • 删除实例
    • 配置修改相关接口
      • 获取同义词文件列表
      • 查看集群配置
      • 删除同义词配置文件
      • 上传同义词配置文件
      • 配置修改
    • 定时调度
      • 更新定时调度任务
      • 删除定时调度任务
      • 创建和更新定时调度任务
      • 查看定时调度任务
  • API3.0
    • 集群相关接口
      • 删除集群
  • Elasticsearch
    • 用户手册
      • YML参数配置
      • 权限管理
      • 智能巡检
      • 数据迁移
      • 基于BOS的快照与恢复
      • 集群列表
      • 账号使用说明
      • 多可用区部署
      • 定时调度
      • 数据量观测
      • 日志查询
        • 日志查询(旧)
        • 日志查询(新)
        • 日志导出
        • 查询语法
      • 集群配置
        • 配置同义词
      • 插件管理
        • 上传与安装自定义插件
        • Elasticsearch插件列表
        • 系统默认插件
          • analysis-pinyin拼音分词插件
          • IK中文分词插件与动态更新词典
          • compression-zstd插件
          • CCR插件
          • 限流插件
          • 动态同义词插件
          • 简繁体转换插件
          • ingest attachment插件
          • SQL插件
      • 配置变更
        • 节点数据迁移
        • 集群变配说明与建议
        • 集群扩缩容
      • 版本升级
        • 升级版本
        • 内核版本说明
        • 升级检查
      • 集群监控报警
        • 监控查看及指标说明
        • 配置报警
      • 集群管理
        • 集群重启
        • 变更HTTPS协议用户指南
        • 节点启停
        • 查看集群信息
        • 集群创建
        • 公网绑定
        • 修改集群名称
        • 跨可用区迁移集群
        • 集群删除
        • 集群列表
        • 自动续费
        • 密码重置
        • ES服务区域代码
      • 账户管理
        • 多用户访问控制
  • 文档中心
  • arrow
  • ElasticsearchBES
  • arrow
  • Elasticsearch
  • arrow
  • 用户手册
  • arrow
  • 集群监控报警
  • arrow
  • 监控查看及指标说明
本页目录
  • 操作步骤
  • 集群监控
  • 节点监控
  • 节点列表
  • 节点状态指标
  • 部分指标含义及说明
  • 集群指标说明
  • 节点指标说明
  • 附录

监控查看及指标说明

更新时间:2025-08-20

百度智能云Elasticsearch 对运行中的 BES 集群,提供了多项监控指标,用以监测集群的运行情况。用户可以根据这些指标实时了解集群服务的运行状况,针对可能存在的风险及时处理,保障集群的稳定运行。本文为您介绍通过 BES 控制台查看集群监控的操作。

操作步骤

1.登录百度智能云 Elasticsearch 控制台。

2.在集群列表中点击目标集群ID。

3.在集群信息页左侧的导航栏中选择监控。

BES提供两大类指标,集群监控指标和节点监控指标。默认展示集群监控指标。可以查看集群整体运行情况。上方tab可切换为节点监控指标,查看集群内各节点的运行情况和性能指标。

image.png

集群监控

在集群监控页,可以看到集群的监控数据信息,可通过选择不同的时间范围查看集群基础指标、集群性能指标和负载均衡指标。

集群基础指标:集群健康状态、集群总分片数、集群数据节点平均分片数、集群未分配分片数等

image.png

集群性能指标:集群写入QPS、集群查询QPS、集群写入增量、集群查询增量、集群平均写入耗时、集群平均查询耗时等。

image.png

负载均衡端口指标:负载均衡服务端口健康检查、负载均衡服务端口网络流量、负载均衡服务端口网络数据包和负载均衡服务端口并发连接数。

image.png

页面右上角可跳转到BCM进行告警策略设置。

节点监控

节点列表

展示集群各个节点基本信息和部分运行指标。

image.png

操作列【报警详情】按钮,点击跳转BCM配置对应节点的告警策略配置。

节点状态指标

节点列表页,点击节点ID,进入监控指标页,查看节点各项指标的详细运行情况。包括服务器性能指标和节点性能指标。

支持选择不同的相对和绝对时间范围、节点ID和节点类型查看指标。

image.png

服务器性能指标:CPU使用率、内存使用量、磁盘空间使用量、磁盘使用率、磁盘写iops、磁盘读iops、磁盘写流量、磁盘读流量、load_1m、IO Util(平均值和最大值)等。

image.png

节点性能指标:JVM年轻代使用率、JVM老年代使用率、FullGC次数、Field Data内存使用、search线程池队排队任务数、write线程池队排队任务数、request cache、query cache、HeapMemory使用率、段内存等。

image.png

部分指标含义及说明

对部分集群指标和节点指标进行说明。具体指标含义说明以及告警阈值建议如下

注意,为便于用户配置合理的监控指标项告警,在此分为3档提供推荐配置阈值:

★★★为强烈推荐用户去配置此监控项的告警

★★和★推荐程度逐次递减

没有★的指标项,用户可视具体业务情况而定

集群指标说明

指标的统计周期均为60秒,即每60秒对集群的指标采集1次。具体各指标含义说明如下:

指标名称 指标说明 推荐配置告警 建议告警阈值-低风险 建议告警阈值-高风险
集群健康状态 BES集群的健康状态。
"1" 表示 green ,表示所有的主分片和副本分片都可用,集群处于最健康状态。
"0" 表示 yellow , 表示所有的主分片均可用,但部分副本分片未分配(unassigned)。此时搜索结果仍然是完整的。但集群的高可用性在一定程度上受到影响。在集群健康状态变为 yellow 后,建议及时调查和定位问题并修复,防止数据丢失。
"-1" 表示 red ,集群异常状态,表示该集群中某个或某几个索引的主分片未分配(unassigned)。在集群健康状态变为 red 后,应及时定位异常分片,并进行修复。
"-2" 表示 gray ,表示未知状态。
配置告警推荐程度:★★★
直接反映了集群可用性,需要高度关注
1分钟最大值<=0 1分钟最大值<=-1
集群总分片数 BES集群已分配shard总数。
集群数据节点平均分片数 BES集群已分配shard总数/数据节点总数。阈值由用户自行设定,建议不超过1000,超过阈值后请及时清理数据。
集群未分配分片数 BES集群未分配的分片总数。 配置告警推荐程度:★★
达到限制后无法创建新索引,ES官方推荐数据节点的分片数不超过1000个,如果调整过设置,需要根据设置调整告警阈值
1分钟最大值>=800 1分钟最大值>=1000
集群写入QPS BES集群在统计周期内(60秒)每秒写入文档的数量的平均值。
如果在1秒内,客户端向BES集群发送1个文档的写入请求,对应写入QPS为1。
集群查询QPS BES集群在统计周期内(60秒)每秒query的数量的平均值。查询QPS数量与待查询索引的分片个数有关,客户端的1个查询可能涉及多个分片。
如果在1秒内,客户端向BES集群发送1个查询请求,被查询的分片有3个,对应查询query的QPS为3。
集群平均写入耗时 BES集群在统计周期内(60秒)所有节点单次 index 请求耗时的平均值
集群平均查询耗时 BES集群在统计周期内(60秒)所有节点单次查询请求耗时的平均值。
集群写入增量 BES集群在统计周期内(60秒)写入文档的增加的数量。集群写入增量和副本数相关。
如果用户设置1个副本,在60秒内,客户端共向BES集群发送1个文档的写入请求,对应写入增量为2.
集群查询增量 BES集群在统计周期内(60秒)查询query的数量。集群查询增量与待查询索引的分片个数有关,客户端的1个查询可能涉及多个分片。
如果在60秒内,客户端共向BES集群发送1个查询请求,被查询的分片有3个,对应查询query增量为3。
集群写入拒绝率 BES集群在统计周期内(60秒),被拒绝的写入请求数/总写入请求数。具体计算规则:根据 GET /_bpack/metrics/nodes 接口,统计总写入请求数和被拒绝的写入请求数。总写入请求数是es的action层接收到的总体写入请求数,返回状态码为429的作为拒绝数。取相邻两次记录的差值,然后汇聚计算每个统计周期内的绝对值。
说明:2024年8月20日之后新创建的集群默认支持统计该指标,存量集群需要安装对应插件(baidu-metrics),从而支持该指标统计。插件安装详见文档。
配置告警推荐程度:★
有数据写入拒绝代表写入压力大
1分钟最大值>0% 1分钟最大值>10%
集群查询拒绝率 BES集群群在统计周期内(60秒),被拒绝的查询请求数/总查询请求数。具体计算规则:根据 GET /_bpack/metrics/nodes 接口,统计总查询请求数和被拒绝的查询请求数。总查询请求数是es的action层接收到的总体查询请求数,返回状态码为429的作为拒绝数。取相邻两次记录的差值,然后汇聚计算每个统计周期内的绝对值。
说明:2024年8月20日之后新创建的集群默认支持统计该指标,存量集群需要安装对应插件(baidu-metrics),从而支持该指标统计。插件安装详见文档。
配置告警推荐程度:★
有数据查询拒绝代表查询压力大
1分钟最大值>0% 1分钟最大值>10%
集群写入失败率 BES集群群在统计周期内(60秒),失败的写入请求数量/总写入请求数。具体计算规则:根据 GET /_bpack/metrics/nodes 接口,统计总写入请求数和失败的写入请求数。总写入请求数是es的action层接收到的总体写入请求数,所有返回状态码非2XX的作为失败数。取相邻两次记录的差值,然后汇聚计算每个统计周期内的绝对值。
说明:2024年8月20日之后新创建的集群默认支持统计该指标,存量集群需要安装对应插件(baidu-metrics),从而支持该指标统计。插件安装详见文档。
★★
数据写入有失败情况
1分钟最大值>0% 1分钟最大值>10%
集群查询失败率 BES集群群在统计周期内(60秒),失败的查询请求数量/总查询请求数。具体计算规则:根据 GET /_bpack/metrics/nodes 接口,统计总查询请求数和失败的查询请求数。总查询请求数是es的action层接收到的总体查询请求数,所有返回状态码非2XX的作为失败数。取相邻两次记录的差值,然后汇聚计算每个统计周期内的绝对值。
说明:2024年8月20日之后新创建的集群默认支持统计该指标,存量集群需要安装对应插件(baidu-metrics),从而支持该指标统计。插件安装详见文档。
★★
数据查询有失败情况
1分钟最大值>0% 1分钟最大值>10%
负载均衡服务端口健康检查 包含3个指标,该集群的负载均衡(BLB)实例总数、正常实例数和异常实例数量。 ★★
存在异常探针数量代表不能通过BLB正常访问的BES节点数量
5分钟异常探针数量平均值>0 5分钟异常探针数量平均值>1
负载均衡服务端口网络流量 包含2个指标,负载均衡端口的网络输入流量和网络输出流量。可参考业务实际流量对指标进行观测。
负载均衡服务端口网络数据包 包含2个指标,负载均衡端口的输入数据包数和输出数据包数。可参考业务收发数据包数量对指标进行观测。
负载均衡服务端口并发连接数 BES负载均衡端口的并发连接数。

节点指标说明

指标的统计周期均为60秒,即每60秒对集群的指标采集1次。具体各指标含义说明以及告警阈值建议如下

注意,为便于用户配置合理的监控指标项告警,在此分为3档提供推荐配置阈值:

★★★为强烈推荐用户去配置此监控项的告警

★★和★推荐程度逐次递减

没有★的指标项,用户可视具体业务情况而定

指标名称 指标说明 推荐配置告警 建议告警阈值-低风险 建议告警阈值-高风险
节点状态 统计周期内(60秒),节点的运行状态。监控指标中的节点状态和集群信息-集群架构图中的节点状态一致。
"1" 对应颜色为 green 绿色 ,表示节点正常运行中。
"0" 对应颜色为 blue 蓝色,表示节点正在生效中,生效中的节点不可进行暂停和启动等操作。节点启停功能详见节点启停文档。
"-1" 对应颜色为 gray 灰色,表示节点已经停止,已经停止的节点不可进行暂停的操作,可以进行节点启动操作。
"-2" 对应颜色为 orange 橙色,表示节点未知状态,未知状态的节点不可以进行暂停和启动等操作。
★★★ 10分钟最大值<=0 10分钟最大值<=-1
CPU使用率 统计周期内(60秒),节点的CPU使用率百分比。 ★★ 5分钟平均值>80% 5分钟平均值>90%
内存使用量 统计周期内(60秒),节点的内存(mem)使用量。
磁盘空间使用量 统计周期内(60秒),节点的磁盘使用量。
磁盘空间使用率 统计周期内(60秒),节点的磁盘使用率。 ★★★
磁盘使用率超过es的水位线可能影响索引创建、数据写入
1分钟最大值>75% 1分钟最大值>85%
磁盘写iops 统计周期内(60秒),磁盘每秒io写次数(次/秒)
磁盘读iops 统计周期内(60秒),磁盘每秒io读次数(次/秒)
磁盘写流量 统计周期内(60秒),磁盘每秒io写速率(Kb/秒) ★
可视具体磁盘类型而定。各种磁盘的吞吐(见附录)
磁盘读流量 统计周期内(60秒),磁盘每秒io读速率(Kb/秒) ★
可视具体磁盘类型而定。各种磁盘的吞吐(见附录)
load_1m 在统计周期内(60秒),节点在1分钟内的负载情况,表示各节点的系统繁忙程度。该指标的正常数值,应该低于对应节点规格的CPU核数。load_1m 过高时,建议降低集群负载或调大集群节点规格。 ★★ 10分钟平均值>节点cpu核数*0.7 10分钟平均值>节点cpu核数*1.5
IO Util 统计周期内(60秒),节点的IO使用率。此指标提供平均值和最大值,平均值表示60秒内节点IO使用率的平均值,最大值表示60秒内节点IO使用率的最大值。默认展示平均值,可切换成最大值。建议将报警阈值设置在90%。此指标的最大值可能出现毛刺现象,建议拉长报警间隔,持续观测。 ★ 5分钟IOUtilAvg平均值>80% 5分钟IOUtilAvg平均值>90%
JVM年轻代使用率 统计周期内(60秒),节点的 JVM 年轻代内存使用率。
JVM老年代使用率 统计周期内(60秒),节点的 JVM 老年代内存使用率。 ★ 1分钟最大值>80% 1分钟最大值>90%
FullGC次数 统计周期内(60秒),节点的gc总次数。 ★★
频繁GC会影响集群性能和稳定性
10分钟和值>=2 10分钟和值>=5
Field Data内存使用 统计周期内(60秒),节点的fielddata内存占用情况,监控曲线越高,说明堆内存存在大量的fielddata数据缓存,过大的fielddata内存占用会触发fielddata内存熔断,影响集群稳定性。
search线程池队排队任务数 统计周期内(60秒),search线程池中的队列数。 ★
可视具体线程池大小而定
write线程池队排队任务数 统计周期内(60秒),write线程池中的队列数。 ★
可视具体线程池大小而定
request cache 统计周期内(60秒),request 缓存大小。
query cache 统计周期内(60秒),query 缓存大小。
HeapMemory使用率 统计周期内(60秒),节点的HeapMemory使用率百分比。当HeapMemory使用率较高或存在较大的内存对象时,会影响集群服务,也会自动触发gc操作。建议报警阈值为75%。 ★★ 1分钟最大值>75% 1分钟最大值>85%
段内存 统计周期内(60秒),为了提高搜索效率而缓存在内存中的段的数据。建议报警阈值为(堆内存 * 30%)。

附录

磁盘容量为512GB时,各类磁盘吞吐对比,详细可参考 https://cloud.baidu.com/doc/CDS/s/hketf8fyr

56d1ffdf2af87e9593a5f40e31bc8214.png

告警功能详见配置告警文档或BCM云监控文档。

上一篇
版本升级
下一篇
配置报警