监控报警

MapReduce BMR

  • 发行版本
  • 功能发布记录
  • 产品描述
    • 节点类型说明
    • 产品优势
    • 应用场景
    • 产品功能
    • 产品简介
  • Python-SDK
    • Cluster(集群)
    • BmrClient
    • 异常处理
    • InstanceGroup(实例组)
    • 简介
    • 文档更新记录
    • Step(作业)
    • 版本变更记录
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
  • 开源组件介绍
    • Impala
    • Pig
    • Druid
    • Presto
    • Hue
    • Ooize
    • HBase
    • Kudu
    • Sqoop
    • Hadoop-Streaming
    • Zeppelin
    • Alluxio
    • Kerberos
      • 集群互信配置
      • 概述
    • ClickHouse
      • 常见问题
      • 数据迁移同步
        • 从Spark导入
        • 从Kafka同步数据
        • 将自建ClickHouse数据迁移到云ClickHouse中
        • 从Flink导入
        • 从MySQL导入和同步
        • 从本地数据导入
          • Parquet格式
          • JSON
          • SQL转储
          • CSV and TSV
      • 快速入门
        • 访问模式
        • 客户端登录
        • 创建ClickHouse集群
        • 基础操作
      • 运维相关操作
        • ClickHouse集群扩容
        • ClickHouse集群缩容
        • 日志配置说明
        • 监控告警配置
    • Ranger
      • ranger概述
      • 权限策略配置
    • Paimon
      • Hive示例
      • StarRocks示例
      • 联合查询示例
      • Flink示例
      • Spark示例
    • Flink
      • 基础使用
    • Trino
      • 基础使用
      • 概述
    • Spark
      • 引擎增强
      • 基础使用
    • Hive
      • 开发指南
        • 自定义函数(UDF)
      • 实践操作
        • Hive迁移
        • Hive操作HBase外表
      • 基础使用
        • Hive基础操作
        • Hive连接方式
  • Java-SDK
    • Cluster(集群)
    • 异常
    • BmrClient
    • InstanceGroup(实例组)
    • 日志
    • 文档更新记录
    • 版本更新记录
    • Step(作业)
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
    • 概述
  • 快速入门
    • 操作流程概览
    • 环境准备
    • 创建集群
    • 数据准备
    • 开发作业
    • 查看结果
    • ClickHouse
      • 导入数据
      • 创建数据库
      • 连接集群
      • 创建表
  • 操作指南
    • 集群模板
    • 服务管理
    • 集群配置
      • 用户管理
      • 弹性伸缩
      • 创建集群
      • 集群安全模式
      • EIP
      • Hive元数据说明
      • 集群审计
      • 配置已有集群
      • 安全组
    • 管理作业
      • 创建作业
      • 诊断、调优
      • 定时任务
      • 查看作业
    • 访问集群
      • 访问集群服务页面
      • 访问集群-openVPN访问集群
      • 使用OpenVPN提交Hadoop作业
      • SSH连接到集群
    • 实践操作
      • 存储数据至HBase
      • 导入数据
      • 编译Maven项目
      • Sqoop导入导出数据
        • 导出数据
    • 权限管理
      • 多用户访问控制
      • 用户管理
    • 集群管理
      • 节点管理
      • 监控报警
      • 集群指标
      • 资源管理
  • 服务等级协议SLA
    • BMR服务等级协议SLA
  • API参考
    • 通用说明
    • 公共头
    • 数据类型
    • 版本更新记录
    • 服务域名
    • 实例操作接口
    • 实例组操作接口
    • 集群操作接口
    • API简介
    • 错误码
  • 常见问题
    • 安全性问题
    • 计费类问题
    • 常见问题总览
    • 性能类问题
    • 配置类问题
    • 故障类问题
  • 视频专区
    • 操作指南
    • 产品介绍
  • 场景教程
    • 流式应用场景
    • 离线应用场景
    • 使用Hive分析网站日志
    • Sqoop应用文档
    • 定时分析日志数据
    • HIVE
      • 不同集群的 Hive 迁移方案
      • Hive 操作 Hbase 外部表
  • 产品定价
    • 转换计费方式
    • 计费项
    • 到期或欠费说明
    • 包年包月计费
    • 续费说明
    • 变更配置计费说明
    • 计费方式
    • 按需计费
    • 账单和用量查询
    • 退款说明
所有文档
menu
没有找到结果,请重新输入

MapReduce BMR

  • 发行版本
  • 功能发布记录
  • 产品描述
    • 节点类型说明
    • 产品优势
    • 应用场景
    • 产品功能
    • 产品简介
  • Python-SDK
    • Cluster(集群)
    • BmrClient
    • 异常处理
    • InstanceGroup(实例组)
    • 简介
    • 文档更新记录
    • Step(作业)
    • 版本变更记录
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
  • 开源组件介绍
    • Impala
    • Pig
    • Druid
    • Presto
    • Hue
    • Ooize
    • HBase
    • Kudu
    • Sqoop
    • Hadoop-Streaming
    • Zeppelin
    • Alluxio
    • Kerberos
      • 集群互信配置
      • 概述
    • ClickHouse
      • 常见问题
      • 数据迁移同步
        • 从Spark导入
        • 从Kafka同步数据
        • 将自建ClickHouse数据迁移到云ClickHouse中
        • 从Flink导入
        • 从MySQL导入和同步
        • 从本地数据导入
          • Parquet格式
          • JSON
          • SQL转储
          • CSV and TSV
      • 快速入门
        • 访问模式
        • 客户端登录
        • 创建ClickHouse集群
        • 基础操作
      • 运维相关操作
        • ClickHouse集群扩容
        • ClickHouse集群缩容
        • 日志配置说明
        • 监控告警配置
    • Ranger
      • ranger概述
      • 权限策略配置
    • Paimon
      • Hive示例
      • StarRocks示例
      • 联合查询示例
      • Flink示例
      • Spark示例
    • Flink
      • 基础使用
    • Trino
      • 基础使用
      • 概述
    • Spark
      • 引擎增强
      • 基础使用
    • Hive
      • 开发指南
        • 自定义函数(UDF)
      • 实践操作
        • Hive迁移
        • Hive操作HBase外表
      • 基础使用
        • Hive基础操作
        • Hive连接方式
  • Java-SDK
    • Cluster(集群)
    • 异常
    • BmrClient
    • InstanceGroup(实例组)
    • 日志
    • 文档更新记录
    • 版本更新记录
    • Step(作业)
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
    • 概述
  • 快速入门
    • 操作流程概览
    • 环境准备
    • 创建集群
    • 数据准备
    • 开发作业
    • 查看结果
    • ClickHouse
      • 导入数据
      • 创建数据库
      • 连接集群
      • 创建表
  • 操作指南
    • 集群模板
    • 服务管理
    • 集群配置
      • 用户管理
      • 弹性伸缩
      • 创建集群
      • 集群安全模式
      • EIP
      • Hive元数据说明
      • 集群审计
      • 配置已有集群
      • 安全组
    • 管理作业
      • 创建作业
      • 诊断、调优
      • 定时任务
      • 查看作业
    • 访问集群
      • 访问集群服务页面
      • 访问集群-openVPN访问集群
      • 使用OpenVPN提交Hadoop作业
      • SSH连接到集群
    • 实践操作
      • 存储数据至HBase
      • 导入数据
      • 编译Maven项目
      • Sqoop导入导出数据
        • 导出数据
    • 权限管理
      • 多用户访问控制
      • 用户管理
    • 集群管理
      • 节点管理
      • 监控报警
      • 集群指标
      • 资源管理
  • 服务等级协议SLA
    • BMR服务等级协议SLA
  • API参考
    • 通用说明
    • 公共头
    • 数据类型
    • 版本更新记录
    • 服务域名
    • 实例操作接口
    • 实例组操作接口
    • 集群操作接口
    • API简介
    • 错误码
  • 常见问题
    • 安全性问题
    • 计费类问题
    • 常见问题总览
    • 性能类问题
    • 配置类问题
    • 故障类问题
  • 视频专区
    • 操作指南
    • 产品介绍
  • 场景教程
    • 流式应用场景
    • 离线应用场景
    • 使用Hive分析网站日志
    • Sqoop应用文档
    • 定时分析日志数据
    • HIVE
      • 不同集群的 Hive 迁移方案
      • Hive 操作 Hbase 外部表
  • 产品定价
    • 转换计费方式
    • 计费项
    • 到期或欠费说明
    • 包年包月计费
    • 续费说明
    • 变更配置计费说明
    • 计费方式
    • 按需计费
    • 账单和用量查询
    • 退款说明
  • 文档中心
  • arrow
  • MapReduceBMR
  • arrow
  • 操作指南
  • arrow
  • 集群管理
  • arrow
  • 监控报警
本页目录
  • 集群监控
  • 集群仪表盘
  • 主机监控
  • 服务监控
  • 集群报警
  • 报警配置
  • 报警管理
  • 添加报警策略
  • 报警策略操作
  • 查看报警策略详情
  • 禁用/启用报警通知
  • 报警回调
  • 操作步骤
  • webhook使用说明
  • POST方式参数说明
  • 报警历史
  • 查看报警历史
  • 查看报警详情

监控报警

更新时间:2025-08-21

集群监控

集群监控为用户提供实时监控和管理集群状态、性能功能以及资源使用情况,以确保集群稳定运行。本章节详细介绍了关于查看监控指标的位置和操作。监控指标说明详见集群指标。

集群仪表盘

  1. 在集群列表中点击集群名称进入详情页,侧边导航找到监控详情-集群仪表盘。
  2. 集群仪表盘支持对时间范围进行筛选查看,右上角点击指标筛选还可以对指标进行筛选。筛选类型分为常用和其他,根据需要筛选指标项。

主机监控

  1. 主机监控列表可以看到具体主机运行状态和具体指标值,点击主机名称可进入详情查看具体指标值的图例形态。主机监控位于集群仪表盘下方,操作步骤可以参照集群仪表盘。
  2. 列表支持主机名称、实例id两种类型搜索。状态支持筛选(全部、已停止、运行中),并且指标可排序。

服务监控

  1. 进入集群监控详情页,选择侧边导航服务监控,能查看当前集群下的服务(已部署服务)的指标数据展示和概览信息。同时,可以进行时间选择和指标筛选。
  2. 服务下方是对应的组件,并且可看到组件部署对应的主机,以及主机的进程状态和各使用率。支持按照主机名进行筛选,进程状态可选(全部、进行中和已停止),且支持使用率排序。

集群报警

报警配置

BMR的报警配置都是在BCM侧进行配置的,BMR的报警配置分为BMR事件报警配置和BMR指标报警配置:

配置类型 类型说明
BMR事件报警配置 针对BMR中监控对象(比如主机和组件进程)运行状态(比如down/up)的事件报警配置。
操作步骤:
1.在产品服务->云监控BCM页中,在侧边导航点击事件监控,参考BCM的事件监控说明,配置BMR的事件报警策略。
2.配置主机运行状态的事件报警策略,产品类型需要选择MapReduce BMR, 事件名称选择主机宕和主机宕恢复。
BMR指标报警配置 针对BMR中监控对象指标阈值的报警配置,比如CPU利用率,磁盘利用率超过阈值报警配置。
1.在产品服务->云监控 BCM页中,点击实例组,参考BCM的实例组说明,配置BMR的实例组以及实例组的报警策略。
2.创建完实例组后,参考BCM的添加实例组报警策略 创建实例组的指标报警策略。

报警管理

当您需要监控各云服务资源的使用和运行情况时,您可以对已接入BCM的云服务设置合理的报警策略,包括对于资源设置性能消耗类指标的阈值报警,也可以对实例或服务的状态即事件监控设置事件报警。 同时针对站点监控中的探测点、应用监控中的实例和自定义监控中的监控项也可以配置合理的报警策略。

添加报警策略

  • 指标监控
  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略—指标报警,进入报警策略列表页面。
  2. 点击添加策略按钮,进入创建报警策略页面,填写表单信息完成指标监控策略创建,填写产品类型时需要选择MapReduce BMR。
  • 事件监控
  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略—云产品事件,进入报警策略列表页面。
  2. 点击添加策略按钮,进入“创建报警策略”页面,填写相应的表单信息完成事件监控策略创建。填写产品类型时需要选择MapReduce BMR。

报警策略操作

  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略,进入报警策略列表页面。
  2. 点击操作列的复制、编辑、删除、启用、禁用按钮,您可以对单个报警策略进行复制、修改、启用、禁用或删除操作。 勾选策略名称前的复选框,您可以对报警规则进行批量删除,启用,禁用操作。

查看报警策略详情

  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略,进入报警策略列表页面。
  2. 点击报警策略名称链接,您可以查看当前报警策略的详情信息。

说明:为方便您对策略进行编辑操作,在报警策略详情界面也提供了复制、编辑、删除和启用/禁用按钮,您可在查看详情的同时直接在此页面进行相关操作。

说明:为方便您对策略进行编辑操作,在报警策略详情界面也提供了复制、编辑、删除和启用/禁用按钮,您可在查看详情的同时直接在此页面进行相关操作。

禁用/启用报警通知

  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警策略,进入报警策略列表页面。
  2. 在通知状态列进行操作,展示“ON”则报警通知开启,“OFF”则报警通知关闭。

报警回调

通过报警回调,可实现将BCM云监控的报警通知发送到您指定的URL。您可以自由、灵活的处理各类告警消息,BCM支持通过 HTTP/HTTPS协议 的 POST 请求推送到可访问公网 URL ,您可基于回调接口推送的报警信息做进一步的处理。如需通过企业微信、钉钉、如流等办公软件接收报警通知,请参见webhook使用说明。

操作步骤

报警回调功能的入口有三处:统一的创建报警策略入口、云服务下单个实例创建报警策略入口和创建报警通知模版入口。下面将具体描述报警回调的操作步骤:

表一 报警回调操作步骤

报警回调入口 具体步骤
统一的创建报警策略入口 1.在左侧导航栏中点击报警管理—报警策略,在云产品监控的策略列表下,点击添加策略。
2.在创建策略页面,点击报警回调按钮开启,输入公网可访问的 URL 地址。
云服务下单个实例创建报警策略入口 1.在左侧导航栏中点击云产品监控,点击要查看的云产品,进入该云产品的实例列表页面。如查看云服务器BCC监控数据,点击云服务器监控,进入“云服务器列表”页面。然后选择对应的实例点击进入报警策略页面。
2.在实例报警策略页面,点击添加策略。
3.在“创建策略”页面,开启报警回调,输入公网可访问的 URL 地址。
创建报警通知模版入口 1.在左侧导航栏中点击报警管理—报警模版,在报警动作列表页面,点击添加模版。
2.在添加通知模版页面,接口回调一栏,输入公网可访问的 URL 地址。

webhook使用说明

表二 操作步骤说明

使用方式 使用步骤
企业微信 1. 登录企业微信,打开需要接收告警通知的企业微信群。
2. 添加群机器人后,复制webhook地址,参考操作步骤填写到“报警回调”中即可。
3. 配置成功后,当报警通知被触发时,您可以在企业微信群收到报警通知。
钉钉 1. 登录钉钉,打开需要接收告警通知的钉钉群,添加群机器人。
2. 填写表单,“安全设置”模块勾选“自定义关键词”选项,建议填写“报警”作为关键词。
如流 1. 登录如流,打开需要接收告警通知的如流群。
2. 群内添加如流机器人,复制webhook地址,参考操作步骤填写到报警回调中即可。
3. 配置成功后,当报警通知被触发时,您可以在如流群收到报警通知。

POST方式参数说明

表四 指标报警POST方式参数说明

参数 说明
alertId 告警ID
userId 账号ID
alarmName 报警策略名称
scope 云产品名称
policyType 策略类型(指标报警和事件报警之一,Metric代表是指标报警,Event代表事件报警)
alertStartTimestamp 发生告警的时间戳
region 报警对象所在的地域
monitoringObject 发生报警的对象
alarmLevel 报警等级状态。根据实际情况返回严重、通知、重要、警告四种状态中的一种
formula 报警条件
currentValue 报警发生或恢复时监控项的当前值
taskTimestamp 报警回调发送时间
signature 签名

表五 事件报警POST方式参数说明

参数 说明
alarmName 报警策略名称
scope 云产品名称
alertStartTimestamp 发生告警的时间戳
alertContent 事件详情
taskTimestamp 报警回调发送时间
signature 签名

URL回调实例,下面是URL回调的使用实例,BCM发起的POST方式URL回调请求:

Plain Text
1POST http://127.0.0.1:8201/callback
2请求Body("Content-Type": "application/json"):
3{
4    "alarmStatus":"报警-异常",
5    "alertId":"19925050-3f77-4839-bae7-6a5f721aae0c",
6    "userId":"your_user_id",
7    "alarmName":"test_bcc_alarm",
8    "scope":"BCE_BCC",
9    "policyType":"Metric",
10    "alertStartTimestamp":1698982559,
11    "region":"北京",
12    "monitoringObject":"i-6nfua8xc/bcc-test-bj/-(公)/192.168.16.12(内)",
13    "alarmLevel":"重要",
14    "formula":"CPU使用率1分钟平均值 > -1 %",
15    "currentValue":"CPU使用率=0.50%",
16    "taskTimestamp":1698982642,
17    "signature":"88e647b853e480046632a5eb9fef70f5"
18}

在callback.java文件中接收POST参数并对消息进行校验:

Plain Text
1// 从发送来的POST请求中解析出alertId、taskTimestamp 、signature这3个参数。使用alertId、token(创建报警策略时生成的token)和taskTimestamp 这3个参数字符串连接并用MD5算法加密后的值来校验消息。
2如果校验成功,则说明此消息为百度云发出,否则为非法请求,不予处理。其中taskTimestamp可以用来做过期验证,如果时间戳与用户当前时间时间间隔大于某个周期(如10分钟),则用户可自行丢弃请求。
3
4if (md5(alertId + token + taskTimestamp) == signature) {
5    ..........
6}

报警历史

当报警发生后,您可以在报警历史页面通过产品类型、报警等级、当前状态等条件筛选想要关注的报警信息。

查看报警历史

  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警历史,进入报警历史列表页面。
  2. 切换tab页,可以分别查看云产品监控、站点监控、自定义监控、应用监控的报警历史信息。

查看报警详情

  1. 登录百度智能云,选择云监控BCM,在左侧导航栏中点击报警管理—报警历史,进入报警历史列表页面。
  2. 在报警历史页面,点击报警内容打开您要查看的报警事件的详情页面。
  3. 在报警事件详情页面,可以查看该报警事件的基本信息,数据监控详情及该报警事件的状态变更历史。

上一篇
节点管理
下一篇
集群指标