监控指标
更新时间:2025-08-21
前提条件
已创建存算分离集群。
查看集群监控
- 登录数据仓库 PALO 控制台,选择侧边导航存算分离集群。
- 在集群管理列表单击集群名称进入集群详情。
- 侧边导航选择集群监控,可查看当前集群各项指标监控信息。
- 通过标签页选择查看集群监控、计算组监控或业务监控。支持按照时间进行筛选。
集群监控
集群监控指标支持按照性能指标和单行展示数就行筛选。
表一 集群监控指标说明
| 监控项名称 | 英文名称 | 中文名称 | 维度值 | 单位 | 含义 |
|---|---|---|---|---|---|
| 基础监控 | ConnectionTotal | 当前连接数 | 集群:{集群ID} | - | 当前连接数 |
| MaxTabletCompactionScore | 数据分片合并情况 | 集群:{集群ID} | - | 数据分片合并情况 | |
| BrokerDeadNum | Broker异常个数 | 集群:{集群ID} | - | Broker异常个数 | |
| BackendDeadNum | ComputeNode异常个数 | 集群:{集群ID} | - | ComputeNode异常个数 | |
| FrontendDeadNum | LeaderNode异常个数 | 集群:{集群ID} | - | LeaderNode异常个数 | |
| S3FileReaderTotal | 远程存储读次数 | 集群:{集群ID} | Count/s | 远程存储读次数 | |
| S3FileWriterTotal | 远程存储写次数 | 集群:{集群ID} | Count/s | 远程存储写次数 | |
| CacheHitRatio | 缓存命中率 | 集群:{集群ID} | % | 缓存命中率 | |
| TableDataSizeTotal | 对象存储容量 | 集群:{集群ID} | Byte | 对象存储容量 | |
| 查询监控 | QuerySuccRate | 查询成功率 | 集群:{集群ID} | % | 查询成功率 |
| AverageQueryLatency | 查询平均耗时 | 集群:{集群ID} | ms | 查询平均耗时 | |
| QueryLatencyMs_0_99 | 查询延时99分位数 | 集群:{集群ID} | ms | FE查询延时中,99%的数值均低于此值 | |
| RequestTotal | 累计操作请求数 | 集群:{集群ID} | Count | 通过 MySQL 端口接收的累计操作请求数 | |
| QueryErrRate | 每秒查询错误数 | 集群:{集群ID} | Count/s | 每秒查询错误数 | |
| Rps | 每秒请求数 | 集群:{集群ID} | Count/s | 每秒请求数 | |
| MaxJournalId | 当前元数据日志id | 集群:{集群ID} | - | 当前元数据日志id | |
| Qps | 每秒查询数 | 集群:{集群ID} | Count/s | 每秒查询数 | |
| 导入任务监控 | RoutineLoadRows | Routine Load 的行数 | 集群:{集群ID} | Count/s | FE routine load 的行数 |
| RoutineLoadErrorRows | Routine Load 错误的行数 | 集群:{集群ID} | Count/s | FE Routine Load 错误的行数 | |
| JobAlterRunningRollup | Running状态Rollup任务数 | 集群:{集群ID} | Count | FE节点处于Running状态的Rollup任务数 | |
| JobAlterRunningSchemaChange | Running状态SchemaChange任务数 | 集群:{集群ID} | Count | FE节点处于Running状态的SchemaChange任务数 | |
| JobLoadPendingSpark | Pending状态Spark导入任务数 | 集群:{集群ID} | Count | FE节点处于Pending状态的Spark导入任务数 | |
| JobLoadLoadingSpark | Loading状态Spark导入任务数 | 集群:{集群ID} | Count | FE节点处于Loading状态的Spark导入任务数 | |
| JobLoadPendingInsert | Pending状态Insert导入任务数 | 集群:{集群ID} | Count | FE节点处于Pending状态的Insert导入任务数 | |
| JobLoadLoadingInsert | Loading状态Insert导入任务数 | 集群:{集群ID} | Count | FE节点处于Loading状态的Insert导入任务数 | |
| JobLoadFinishedInsert | Finished状态Insert导入任务数 | 集群:{集群ID} | Count | FE节点处于Finished状态的Insert导入任务数 | |
| JobLoadCancelledInsert | Cancelled状态Insert导入任务数 | 集群:{集群ID} | Count | FE节点处于Cancelled状态的Insert导入任务数 | |
| JobLoadPendingBroker | Pending状态Broker导入个数 | 集群:{集群ID} | Count | FE节点处于Pending状态的Broker导入任务数 | |
| JobLoadFinishedBroker | Finished状态Broker导入个数 | 集群:{集群ID} | Count | FE节点处于Finished状态的Broker导入任务数 | |
| JobLoadLoadingBroker | Loading状态Broker导入个数 | 集群:{集群ID} | Count | FE节点处于Loading状态的Broker导入任务数 | |
| JobLoadCancelledBroker | Cancelled状态Broker导入个数 | 集群:{集群ID} | Count | FE节点处于Cancelled状态的Broker导入任务数 | |
| JobLoadNeedScheduleRoutineLoad | NeedSchedule状态Routine导入个数 | 集群:{集群ID} | Count | FE节点处于NeedSchedule状态的Routine导入任务数 | |
| JobLoadRunningRoutineLoad | Running状态Routine导入个数 | 集群:{集群ID} | Count | FE节点处于Running状态的Routine导入任务数 | |
| JobLoadPausedRoutineLoad | Paused状态Routine导入个数 | 集群:{集群ID} | Count | FE节点处于Paused状态的Routine导入任务数 | |
| JobLoadStoppedRoutineLoad | Stopped状态Routine导入个数 | 集群:{集群ID} | Count | FE节点处于Stopped状态的Routine导入任务数 | |
| JobLoadCancelledRoutineLoad | Cancelled状态Routine导入个数 | 集群:{集群ID} | Count | FE节点处于Cancelled状态的Routine导入任务数 | |
| 调度与事务数量监控 | TxnCounterFailed | 失败的事务数量 | 集群:{集群ID} | Count/s | FE失败的事务数量 |
| TxnCounterReject | 被拒绝的事务数量 | 集群:{集群ID} | Count/s | FE被拒绝的事务数量 | |
| ScheduledTabletNum | Master节点正在调度的Tablet数量 | 集群:{集群ID} | Count | Master FE 节点正在调度的Tablet数量 | |
| TxnCounterBegin | 开始的事务数量 | 集群:{集群ID} | Count/s | FE开始的事务数量 | |
| TxnCounterSuccess | 成功的事务数量 | 集群:{集群ID} | Count/s | FE成功的事务数量 | |
| ReportQueueSize | ComputeNode定期汇报任务在 LeaderNode端的队列长度 | 集群:{集群ID} | BE 的各种定期汇报任务在 FE 端的队列长度 | ||
| MaxTabletCompactionScore | Tablet Compaction 最高分 | 集群:{集群ID} | Count | Tablet Compaction 最高分 | |
| TxnStatusUnknown | 处于Unknown状态的事务个数 | 集群:{集群ID} | Count | 处于未知状态的事务个数 | |
| TxnStatusPrepare | 处于Prepare状态的事务个数 | 集群:{集群ID} | Count | 处于准备状态的事务个数 | |
| TxnStatusCommitted | 处于Committed状态的事务个数 | 集群:{集群ID} | Count | 处于已提交状态的事务个数 | |
| TxnStatusVisible | 处于Visible状态的事务个数 | 集群:{集群ID} | Count | 处于可见状态的事务个数 | |
| TxnStatusAborted | 处于Aborted状态的事务个数 | 集群:{集群ID} | Count | 处于取消状态的事务个数 | |
| TxnStatusPrecommitted | 处于Precommitted状态的事务个数 | 集群:{集群ID} | Count | 处于预提交状态的事务个数 | |
| 元数据监控 | EditLogWrite | 元数据日志写入次数 | 集群:{集群ID} | Count/s | 元数据日志写入次数 |
| EditLogRead | 元数据日志读取次数 | 集群:{集群ID} | Count/s | 元数据日志读取次数 | |
| EditLogCurrentBytes | 元数据日志当前大小 | 集群:{集群ID} | Byte/s | 元数据日志当前值 | |
| EditlogWriteLatencyMs_0_99 | 元数据日志写入延迟的99分位统计 | 集群:{集群ID} | ms | 元数据日志写入延迟中,99%的数值均低于此值 | |
| EditLogCleanSuccess | 清理历史元数据日志成功次数 | 集群:{集群ID} | Count | 清理历史元数据日志成功的次数 | |
| EditLogCleanFailed | 清理历史元数据日志失败次数 | 集群:{集群ID} | Count | 清理历史元数据日志失败的次数 | |
| ImageCleanSuccess | 清理历史元数据镜像文件成功次数 | 集群:{集群ID} | Count | 清理历史元数据镜像文件成功的次数 | |
| ImageCleanFailed | 清理历史元数据镜像文件失败次数 | 集群:{集群ID} | Count | 清理历史元数据镜像文件失败的次数 | |
| ImagePushSuccess | 将元数据镜像文件推送给其他FE节点的失败次数 | 集群:{集群ID} | Count | 将元数据镜像文件推送给其他FE节点的失败的次数 | |
| ImagePushFailed | 将元数据镜像文件推送给其他FE节点的成功次数 | 集群:{集群ID} | Count | 将元数据镜像文件推送给其他FE节点的成功的次数 | |
| ImageWriteSuccess | 生成元数据镜像文件成功次数 | 集群:{集群ID} | Count | 生成元数据镜像文件成功的次数 | |
| ImageWriteFailed | 生成元数据镜像文件失败次数 | 集群:{集群ID} | Count | 生成元数据镜像文件失败的次数 |
计算组监控
计算组监控视图支持按照监控对象、性能指标和单行展示数筛选展示。
| 监控项名称 | 英文名称 | 中文名称 | 维度值 | 单位 | 含义 |
|---|---|---|---|---|---|
| 基础监控 | CpuSystemPercent | CPU使用率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | CPU使用率 |
| CpuStolenPercent | CPU抢占率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | CPU抢占率 | |
| MemoryUsedPercent | 内存使用率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | 内存使用率 | |
| DiskUsedPercent | 磁盘空间使用率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | 磁盘空间使用率 | |
| DiskTotalGBytes | 磁盘空间使用量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | 磁盘空间使用量 | |
| MaxDiskIoUtilPercent | 磁盘IO利用率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | 磁盘IO利用率 | |
| DiskPartitionMaxUsedPercent | 数据盘最大使用率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
% | 数据盘最大使用率 | |
| MemoryAllocatedBytes | Memory Allocated 大小 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte | BE Memory Allocated 大小 | |
| ProcessFdNumLimitSoft | 进程文件句柄 Soft 限制数量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 进程文件句柄 Soft 限制数量 | |
| DisksAvailCapacity | 磁盘的剩余空间 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte | BE 节点当前磁盘的剩余空间 | |
| MaxNetworkReceiveBytesRate | 网络最大接收速率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Bytes/s | 网络最大接收速率 | |
| MaxNetworkSendBytesRate | 网络最大发送速率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Bytes/s | 网络最大发送速率 | |
| NetworkSendBytes | 各个网卡的发送字节累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | 各个网卡的发送字节累计值,采集自 /proc/net/dev | |
| NetworkReceiveBytes | 各个网卡的接收字节累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | 各个网卡的接收字节累计值,采集自 /proc/net/dev | |
| ProcessFdNumUsed | 进程使用文件句柄数量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 进程使用文件句柄数量 | |
| ProcessThreadNum | 进程运行的线程个数 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 进程运行的线程个数 | |
| S3BytesReadTotal | S3FileReader 读取字节数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | S3FileReader 读取字节数累计值 | |
| UploadTotalByte | 上传到远端存储成功的Rowset数据量累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | 冷热分层功能,上传到远端存储成功的Rowset数据量累计值 | |
| UploadRowsetCount | 上传到远端存储成功的Rowset的次数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | 冷热分层功能,上传到远端存储成功的Rowset的次数累计值 | |
| UploadFailCount | 上传到远端存储失败的Rowset的次数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | 冷热分层功能,上传到远端存储失败的Rowset的次数累计值 | |
| 数据导入及写入 | LoadRowsPerSecond | 导入速度 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Row/s | 导入速度 |
| LoadBytesPerSecond | 导入数据量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | 导入数据量 | |
| StreamLoadReceiveBytes | Stream Load 接收的字节数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | Stream Load 最终导入的行数累计值 | |
| StreamLoadLoadRows | Stream Load 最终导入的行数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Row/s | Stream Load 接收的字节数累计值 | |
| StreamingLoadRequestsPerSecond | Stream Load 最终导入的行数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Row/s | Stream Load 接收的字节数累计值 | |
| PushRequestWriteRows | Push请求写入行数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | Push请求写入行数累计值 | |
| PushRequestsTotalSuccess | Push请求成功次数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | Push请求成功次数累计值 | |
| PushRequestsTotalFail | Push请求失败次数累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | Push请求失败次数累计值 | |
| PushRequestDurationUs | Push请求耗时累计 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
us | Push请求耗时累计 | |
| 查询监控 | QueryScanRows | 读取行数的数量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | 读取行数的数量 |
| QueryCacheMemoryTotalByte | Query Cache 占用字节数 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte | Query Cache 占用字节数 | |
| QueryScanBytesPerSecond | 读取数据速率 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Bytes/s | 读取数据速率 | |
| QueryCachePartitionTotalCount | 当前 Partition Cache 缓存个数 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | 当前 Partition Cache 缓存个数 | |
| QueryCacheSqlTotalCount | 当前 SQL Cache 缓存个数 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | 当前 SQL Cache 缓存个数 | |
| 任务信息监控 | EngineRequestsTotalTotalPublish | Publish任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点Publish任务总累计值 |
| EngineRequestsTotalFailedPublish | Publish任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点Publish任务失败累计值 | |
| EngineRequestsTotalTotalFinishTask | FinishTask任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点FinishTask任务总累计值 | |
| EngineRequestsTotalFailedFinishTask | FinishTask任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点FinishTask任务失败累计值 | |
| EngineRequestsTotalTotalDelete | Delete任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点Delete任务总累计值 | |
| EngineRequestsTotalFailedDelete | Delete任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点Delete任务失败累计值 | |
| EngineRequestsTotalTotalBaseCompaction | BaseCompaction任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点BaseCompaction任务总累计值 | |
| EngineRequestsTotalFailedBaseCompaction | BaseCompaction任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点BaseCompaction任务失败累计值 | |
| EngineRequestsTotalTotalCumulativeCompaction | CumulativeCompaction任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点CumulativeCompaction任务总累计值 | |
| EngineRequestsTotalFailedCumulativeCompaction | CumulativeCompaction任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点CumulativeCompaction任务失败累计值 | |
| EngineRequestsTotalTotalClone | Clone任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点Clone任务总累计值 | |
| EngineRequestsTotalFailedClone | Clone任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点Clone任务失败累计值 | |
| EngineRequestsTotalTotalCreateRollup | CreateRollup任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点CreateRollup任务总累计值 | |
| EngineRequestsTotalFailedCreateRollup | CreateRollup任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点CreateRollup任务失败累计值 | |
| EngineRequestsTotalTotalSchemaChange | SchemaChange任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点SchemaChange任务总累计值 | |
| EngineRequestsTotalFailedSchemaChange | SchemaChange任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点SchemaChange任务失败累计值 | |
| EngineRequestsTotalTotalCreateTablet | CreateTablet任务总累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count/s | BE 节点CreateTablet任务总累计值 | |
| EngineRequestsTotalFailedCreateTablet | CreateTablet任务失败累计值 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Count | BE 节点CreateTablet任务失败累计值 | |
| CompactionBytesTotalBase | Base compaction 的数据量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | BE Base compaction 的数据量 | |
| CompactionBytesTotalCumulative | Cumulative compaction 的数据量 | Compute Group:{计算组 ID} Compute Node : {节点 ID} |
Byte/s | BE Cumulative compaction 的数据量 |
业务监控
业务监控支持按照性能指标或单行展示数进行筛选视图。
| 监控项名称 | 英文名称 | 中文名称 | 维度值 | 单位 | 含义 |
|---|---|---|---|---|---|
| 业务监控指标 | SlowQueryRecordsCount | 慢查询数 | 集群:{集群ID} | Count | 慢查询数 |
