联合查询示例

MapReduce BMR

  • 发行版本
  • 功能发布记录
  • 产品描述
    • 节点类型说明
    • 产品优势
    • 应用场景
    • 产品功能
    • 产品简介
  • Python-SDK
    • Cluster(集群)
    • BmrClient
    • 异常处理
    • InstanceGroup(实例组)
    • 简介
    • 文档更新记录
    • Step(作业)
    • 版本变更记录
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
  • 开源组件介绍
    • Impala
    • Pig
    • Druid
    • Presto
    • Hue
    • Ooize
    • HBase
    • Kudu
    • Sqoop
    • Hadoop-Streaming
    • Zeppelin
    • Alluxio
    • Kerberos
      • 集群互信配置
      • 概述
    • ClickHouse
      • 常见问题
      • 数据迁移同步
        • 从Spark导入
        • 从Kafka同步数据
        • 将自建ClickHouse数据迁移到云ClickHouse中
        • 从Flink导入
        • 从MySQL导入和同步
        • 从本地数据导入
          • Parquet格式
          • JSON
          • SQL转储
          • CSV and TSV
      • 快速入门
        • 访问模式
        • 客户端登录
        • 创建ClickHouse集群
        • 基础操作
      • 运维相关操作
        • ClickHouse集群扩容
        • ClickHouse集群缩容
        • 日志配置说明
        • 监控告警配置
    • Ranger
      • ranger概述
      • 权限策略配置
    • Paimon
      • Hive示例
      • StarRocks示例
      • 联合查询示例
      • Flink示例
      • Spark示例
    • Flink
      • 基础使用
    • Trino
      • 基础使用
      • 概述
    • Spark
      • 引擎增强
      • 基础使用
    • Hive
      • 开发指南
        • 自定义函数(UDF)
      • 实践操作
        • Hive迁移
        • Hive操作HBase外表
      • 基础使用
        • Hive基础操作
        • Hive连接方式
  • Java-SDK
    • Cluster(集群)
    • 异常
    • BmrClient
    • InstanceGroup(实例组)
    • 日志
    • 文档更新记录
    • 版本更新记录
    • Step(作业)
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
    • 概述
  • 快速入门
    • 操作流程概览
    • 环境准备
    • 创建集群
    • 数据准备
    • 开发作业
    • 查看结果
    • ClickHouse
      • 导入数据
      • 创建数据库
      • 连接集群
      • 创建表
  • 操作指南
    • 集群模板
    • 服务管理
    • 集群配置
      • 用户管理
      • 弹性伸缩
      • 创建集群
      • 集群安全模式
      • EIP
      • Hive元数据说明
      • 集群审计
      • 配置已有集群
      • 安全组
    • 管理作业
      • 创建作业
      • 诊断、调优
      • 定时任务
      • 查看作业
    • 访问集群
      • 访问集群服务页面
      • 访问集群-openVPN访问集群
      • 使用OpenVPN提交Hadoop作业
      • SSH连接到集群
    • 实践操作
      • 存储数据至HBase
      • 导入数据
      • 编译Maven项目
      • Sqoop导入导出数据
        • 导出数据
    • 权限管理
      • 多用户访问控制
      • 用户管理
    • 集群管理
      • 节点管理
      • 监控报警
      • 集群指标
      • 资源管理
  • 服务等级协议SLA
    • BMR服务等级协议SLA
  • API参考
    • 通用说明
    • 公共头
    • 数据类型
    • 版本更新记录
    • 服务域名
    • 实例操作接口
    • 实例组操作接口
    • 集群操作接口
    • API简介
    • 错误码
  • 常见问题
    • 安全性问题
    • 计费类问题
    • 常见问题总览
    • 性能类问题
    • 配置类问题
    • 故障类问题
  • 视频专区
    • 操作指南
    • 产品介绍
  • 场景教程
    • 流式应用场景
    • 离线应用场景
    • 使用Hive分析网站日志
    • Sqoop应用文档
    • 定时分析日志数据
    • HIVE
      • 不同集群的 Hive 迁移方案
      • Hive 操作 Hbase 外部表
  • 产品定价
    • 转换计费方式
    • 计费项
    • 到期或欠费说明
    • 包年包月计费
    • 续费说明
    • 变更配置计费说明
    • 计费方式
    • 按需计费
    • 账单和用量查询
    • 退款说明
所有文档
menu
没有找到结果,请重新输入

MapReduce BMR

  • 发行版本
  • 功能发布记录
  • 产品描述
    • 节点类型说明
    • 产品优势
    • 应用场景
    • 产品功能
    • 产品简介
  • Python-SDK
    • Cluster(集群)
    • BmrClient
    • 异常处理
    • InstanceGroup(实例组)
    • 简介
    • 文档更新记录
    • Step(作业)
    • 版本变更记录
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
  • 开源组件介绍
    • Impala
    • Pig
    • Druid
    • Presto
    • Hue
    • Ooize
    • HBase
    • Kudu
    • Sqoop
    • Hadoop-Streaming
    • Zeppelin
    • Alluxio
    • Kerberos
      • 集群互信配置
      • 概述
    • ClickHouse
      • 常见问题
      • 数据迁移同步
        • 从Spark导入
        • 从Kafka同步数据
        • 将自建ClickHouse数据迁移到云ClickHouse中
        • 从Flink导入
        • 从MySQL导入和同步
        • 从本地数据导入
          • Parquet格式
          • JSON
          • SQL转储
          • CSV and TSV
      • 快速入门
        • 访问模式
        • 客户端登录
        • 创建ClickHouse集群
        • 基础操作
      • 运维相关操作
        • ClickHouse集群扩容
        • ClickHouse集群缩容
        • 日志配置说明
        • 监控告警配置
    • Ranger
      • ranger概述
      • 权限策略配置
    • Paimon
      • Hive示例
      • StarRocks示例
      • 联合查询示例
      • Flink示例
      • Spark示例
    • Flink
      • 基础使用
    • Trino
      • 基础使用
      • 概述
    • Spark
      • 引擎增强
      • 基础使用
    • Hive
      • 开发指南
        • 自定义函数(UDF)
      • 实践操作
        • Hive迁移
        • Hive操作HBase外表
      • 基础使用
        • Hive基础操作
        • Hive连接方式
  • Java-SDK
    • Cluster(集群)
    • 异常
    • BmrClient
    • InstanceGroup(实例组)
    • 日志
    • 文档更新记录
    • 版本更新记录
    • Step(作业)
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
    • 概述
  • 快速入门
    • 操作流程概览
    • 环境准备
    • 创建集群
    • 数据准备
    • 开发作业
    • 查看结果
    • ClickHouse
      • 导入数据
      • 创建数据库
      • 连接集群
      • 创建表
  • 操作指南
    • 集群模板
    • 服务管理
    • 集群配置
      • 用户管理
      • 弹性伸缩
      • 创建集群
      • 集群安全模式
      • EIP
      • Hive元数据说明
      • 集群审计
      • 配置已有集群
      • 安全组
    • 管理作业
      • 创建作业
      • 诊断、调优
      • 定时任务
      • 查看作业
    • 访问集群
      • 访问集群服务页面
      • 访问集群-openVPN访问集群
      • 使用OpenVPN提交Hadoop作业
      • SSH连接到集群
    • 实践操作
      • 存储数据至HBase
      • 导入数据
      • 编译Maven项目
      • Sqoop导入导出数据
        • 导出数据
    • 权限管理
      • 多用户访问控制
      • 用户管理
    • 集群管理
      • 节点管理
      • 监控报警
      • 集群指标
      • 资源管理
  • 服务等级协议SLA
    • BMR服务等级协议SLA
  • API参考
    • 通用说明
    • 公共头
    • 数据类型
    • 版本更新记录
    • 服务域名
    • 实例操作接口
    • 实例组操作接口
    • 集群操作接口
    • API简介
    • 错误码
  • 常见问题
    • 安全性问题
    • 计费类问题
    • 常见问题总览
    • 性能类问题
    • 配置类问题
    • 故障类问题
  • 视频专区
    • 操作指南
    • 产品介绍
  • 场景教程
    • 流式应用场景
    • 离线应用场景
    • 使用Hive分析网站日志
    • Sqoop应用文档
    • 定时分析日志数据
    • HIVE
      • 不同集群的 Hive 迁移方案
      • Hive 操作 Hbase 外部表
  • 产品定价
    • 转换计费方式
    • 计费项
    • 到期或欠费说明
    • 包年包月计费
    • 续费说明
    • 变更配置计费说明
    • 计费方式
    • 按需计费
    • 账单和用量查询
    • 退款说明
  • 文档中心
  • arrow
  • MapReduceBMR
  • arrow
  • 开源组件介绍
  • arrow
  • Paimon
  • arrow
  • 联合查询示例
本页目录
  • 前提条件
  • 操作示例
  • 基于Filesystem元信息联合查询

联合查询示例

更新时间:2025-08-21

前提条件

已完成创建 BMR 集群,并且配置了 Paimon、Spark 组件,详情请参见创建集群。

操作示例

基于Hive元信息联合查询

  1. SSH登录集群,参考SSH连接到集群。
  2. 创建 Paimon 表,参考以下命令:
Plain Text
1spark-sql
2USE paimon;
3USE default;
4drop table if exists spark_paimon;
5-- 如果没有 bucket,对 spark 没有影响,hive  可以读,但是不能写入。
6create table spark_paimon (
7    id int,
8    name string
9) tblproperties (
10    'primary-key' = 'id',
11    'bucket' = '4'
12);
13
14INSERT INTO spark_paimon VALUES (1, 'spark-paimon-1'), (2, 'spark-paimon-2');
15
16select * from spark_paimon;
  1. 结果显示如下:
Plain Text
1+------+----------------+
2| id   | name           |
3+------+----------------+
4|    1 | spark-paimon-1 |
5|    2 | spark-paimon-2 |
6+------+----------------+
  1. 创建 Hive 表,参考以下命令:
Plain Text
1use default;
2CREATE TABLE hive_table (
3    id INT,
4    age INT
5);
6
7INSERT INTO hive_table VALUES (1, 10), (2, 20);
8select * from hive_table;
  1. 结果显示如下:
Plain Text
1OK
21	10
32	20
  1. Hive 执行联合查询,参考以下命令:
Plain Text
1SELECT a.id, a.age, b.name
2FROM hive_table a
3JOIN spark_paimon b
4ON a.id = b.id;
  1. 结果显示如下:
Plain Text
1OK
22	20	spark-paimon-2
31	10	spark-paimon-1
  1. Spark 执行联合查询 ,参考以下命令:
Plain Text
1SELECT a.id, a.age, b.name
2FROM spark_catalog.default.hive_table a
3JOIN paimon.default.spark_paimon b
4ON a.id = b.id;
  1. 结果显示如下:
Plain Text
11	10	spark-paimon-1
22	20	spark-paimon-2

基于Filesystem元信息联合查询

  1. SSH登录集群,参考SSH连接到集群;
  2. 创建 Paimon 表,参考以下命令:
Plain Text
1SET spark.sql.catalog.paimon_fs=org.apache.paimon.spark.SparkCatalog;
2SET spark.sql.catalog.paimon_fs.warehouse=hdfs://bmr-cluster/warehouse/paimon/spark;
3SET spark.sql.catalog.paimon_fs.metastore=filesystem;
4
5use paimon_fs;
6create table fs_paimon (
7    id int,
8    name string
9) tblproperties (
10    'primary-key' = 'id',
11    'bucket' = '4'
12);
13
14DESCRIBE FORMATTED  fs_paimon;
  1. 结果显示如下:
Plain Text
1id                  	int                 	                    
2name                	string              	                    
3                    	                    	                    
4# Metadata Columns  	                    	                    
5__paimon_file_path  	string              	                    
6__paimon_row_index  	bigint              	                    
7__paimon_partition  	struct<>            	                    
8__paimon_bucket     	int                 	                    
9                    	                    	                    
10# Detailed Table Information	                    	                    
11Name                	default.fs_paimon   	                    
12Type                	MANAGED             	                    
13Location            	hdfs://bmr-cluster/warehouse/paimon/spark/default.db/fs_paimon	                    
14Provider            	paimon              	                    
15Owner               	hive                	                    
16Table Properties    	[bucket=4,path=hdfs://bmr-cluster/warehouse/paimon/spark/default.db/fs_paimon,primary-key=id]
  1. 设置元信息,参考以下命令:
Plain Text
1SET spark.sql.catalog.paimon_fs.metastore;
  1. 插入数据,参考以下命令:
Plain Text
1INSERT INTO fs_paimon VALUES (1, 'fs-paimon-1'), (2, 'fs-paimon-1');
2select * from fs_paimon;
  1. 执行联合查询(spark_table 为 spark-sql 创建):
Plain Text
1SELECT a.id, a.age, b.name
2FROM spark_catalog.default.spark_table a
3JOIN paimon_fs.default.fs_paimon b
4ON a.id = b.id;
  1. 结果显示如下:
Plain Text
11	10	fs-paimon-1
22	20	fs-paimon-1
  1. 执行联合查询(hive_table 为hive创建):
Plain Text
1SELECT a.id, a.age, b.name
2FROM spark_catalog.default.hive_table a
3JOIN paimon_fs.default.fs_paimon b
4ON a.id = b.id;
  1. 结果显示如下:
Plain Text
11	10	fs-paimon-1
22	20	fs-paimon-1

上一篇
StarRocks示例
下一篇
Flink示例