BigQuery

更新时间：2025-08-21

在迁移 BigQuery 的过程中，通常需要借助对象存储作为中间媒介。核心流程如下：首先通过 BigQuery 的 Export 语句将数据导出到 GCS（Google Cloud Storage）；再利用 PALO 的 S3 Load 功能从对象存储中读取数据并导入到 PALO 中。

注意事项

在迁移之前，需要根据 BigQuery 的表结构选择 PALO 的数据模型，以及分区和分桶的策略。
BigQuery 导出 JSON 类型时，不支持 Parquet 格式导出，可使用 JSON 格式导出。
BigQuery 导出 Time 类型时，需要 Cast String 类型导出。

数据类型映射

BigQuery	PALO	备注
Array	Array
BOOLEAN	BOOLEAN
DATE	DATE
DATETIME/TIMESTAMP	DATETIME
JSON	JSON
INT64	BIGINT
NUMERIC	DECIMAL
FLOAT64	DOUBLE
STRING	VARCHAR/STRING	VARCHAR 长度最大 65535
STRUCT	STRUCT
TIME	STRING
OTHER	UNSUPPORTED

1. 创建表

在迁移 BigQuery 表到 PALO 中的时候，需要先创建 PALO 表。

假设我们在 BigQuery 中已存在如下表和数据

SQL

1CREATE OR REPLACE TABLE test.sales_data (
2    order_id      INT64,
3    customer_name STRING,
4    order_date    DATE,
5    amount        NUMERIC(10,2),
6    country       STRING
7)
8PARTITION BY  order_date
9
10
11INSERT INTO test.sales_data (order_id, customer_name, order_date, amount, country) VALUES
12(1, 'Alice', '2025-04-08', 99.99, 'USA'),
13(2, 'Bob', '2025-04-08', 149.50, 'Canada'),
14(3, 'Charlie', '2025-04-09', 75.00, 'UK'),
15(4, 'Diana', '2025-04-10', 200.00, 'Australia');

根据这个表结构，可以创建 PALO 主键分区表，分区字段和 Bigquery 的分区字段一致，同时按天分区

SQL

1CREATE TABLE `sales_data` (
2  order_id      INT,
3  order_date    DATE NOT NULL,
4  customer_name VARCHAR(128),
5  amount        DECIMAL(10,2),
6  country       VARCHAR(48)
7) ENGINE=OLAP
8UNIQUE KEY(`order_id`,`order_date`)
9PARTITION BY RANGE(`order_date`) (
10PARTITION p20250408 VALUES [('2025-04-08'), ('2025-04-09')),
11PARTITION p20250409 VALUES [('2025-04-09'), ('2025-04-10')),
12PARTITION p20250410 VALUES [('2025-04-10'), ('2025-04-11'))
13)
14DISTRIBUTED BY HASH(`order_id`) BUCKETS 16
15PROPERTIES (
16 "dynamic_partition.enable" = "true",
17 "dynamic_partition.time_unit" = "DAY",
18 "dynamic_partition.end" = "5",
19 "dynamic_partition.prefix" = "p",
20 "dynamic_partition.buckets" = "16",
21 "replication_num" = "1"
22);

2. 导出 BigQuery 数据

2.1. 通过 Export 方式导出到 GCS Parquet 格式的文件

SQL

1EXPORT DATA
2OPTIONS (
3 uri = 'gs://mybucket/export/sales_data/*.parquet',
4 format = 'PARQUET')
5AS (
6SELECT *
7FROM test.sales_data 
8);

2.2. 查看 GCS 上的导出文件

以上命令会将 sales_data 的数据导出到 GCS 上，并且每个分区会产生一个或多个文件，文件名递增。

3. 导入数据到 PALO

导入使用 S3 Load 进行导入，S3 Load 是一种异步的数据导入方式，执行后 PALO 会主动从数据源拉取数据，数据源支持兼容 S3 协议的对象存储，包括 (AWS S3，GCS，AZURE等)。

该方式适用于数据量大、需要后台异步处理的场景。对于需要同步处理的数据导入。

注意：对于含有复杂类型（Struct/Array/Map）的 Parquet/ORC 格式文件导入，目前必须使用 TVF 导入

3.1. 导入单个文件的数据

SQL

1LOAD LABEL sales_data_2025_04_08
2(
3 DATA INFILE("s3://mybucket/export/sales_data/000000000000.parquet")
4 INTO TABLE sales_data
5 FORMAT AS "parquet"
6 (order_id, order_date, customer_name, amount, country)
7)
8WITH S3
9(
10 "provider" = "GCP",
11 "s3.endpoint" = "storage.asia-southeast1.rep.googleapis.com",  
12 "s3.region" = "asia-southeast1",
13 "s3.access_key" = "<ak>",
14 "s3.secret_key" = "<sk>"
15);

3.2. 通过 Show Load 查看任务运行情况

由于 S3Load 导入是异步提交的，所以需要通过 show load 可以查看指定 label 的导入情况：

YAML

1mysql> show load where label = "label_sales_data_2025_04_08"\G
2*************************** 1. row ***************************
3     JobId: 17956078
4     Label: label_sales_data_2025_04_08
5     State: FINISHED
6   Progress: 100.00% (1/1)
7       Type: BROKER
8   EtlInfo: unselected.rows=0; dpp.abnorm.ALL=0; dpp.norm.ALL=2
9   TaskInfo: cluster:storage.asia-southeast1.rep.googleapis.com; timeout(s):3600; max_filter_ratio:0.0; priority:NORMAL
10   ErrorMsg: NULL
11 CreateTime: 2025-04-10 17:50:53
12EtlStartTime: 2025-04-10 17:50:54
13EtlFinishTime: 2025-04-10 17:50:54
14LoadStartTime: 2025-04-10 17:50:54
15LoadFinishTime: 2025-04-10 17:50:54
16       URL: NULL
17 JobDetails: {"Unfinished backends":{"5eec1be8612d4872-91040ff1e7208a4f":[]},"ScannedRows":2,"TaskNumber":1,"LoadBytes":91,"All backends":{"5eec1be8612d4872-91040ff1e7208a4f":[10022]},"FileNumber":1,"FileSize":1620}
18TransactionId: 766228
19ErrorTablets: {}
20       User: root
21   Comment: 
221 row in set (0.00 sec)

3.3. 处理导入过程中的错误

当有多个导入任务时，可以通过以下语句，查询数据导入失败的日期和原因。

YAML

1mysql> show load where state='CANCELLED' and label like "label_test%"\G
2*************************** 1. row ***************************
3     JobId: 18312384
4     Label: label_test123
5     State: CANCELLED
6   Progress: 100.00% (3/3)
7       Type: BROKER
8   EtlInfo: unselected.rows=0; dpp.abnorm.ALL=4; dpp.norm.ALL=0
9   TaskInfo: cluster:storage.asia-southeast1.rep.googleapis.com; timeout(s):14400; max_filter_ratio:0.0; priority:NORMAL
10   ErrorMsg: type:ETL_QUALITY_UNSATISFIED; msg:quality not good enough to cancel
11 CreateTime: 2025-04-15 17:32:59
12EtlStartTime: 2025-04-15 17:33:02
13EtlFinishTime: 2025-04-15 17:33:02
14LoadStartTime: 2025-04-15 17:33:02
15LoadFinishTime: 2025-04-15 17:33:02
16       URL: http://10.16.10.6:28747/api/_load_error_log?file=__shard_2/error_log_insert_stmt_7602ccd7c3a4854-95307efca7bfe342_7602ccd7c3a4854_95307efca7bfe342
17 JobDetails: {"Unfinished backends":{"7602ccd7c3a4854-95307efca7bfe341":[]},"ScannedRows":4,"TaskNumber":1,"LoadBytes":188,"All backends":{"7602ccd7c3a4854-95307efca7bfe341":[10022]},"FileNumber":3,"FileSize":4839}
18TransactionId: 769213
19ErrorTablets: {}
20       User: root
21   Comment:

如上面的例子是数据质量错误(ETL_QUALITY_UNSATISFIED)，具体错误需要通过访问返回的 URL 的链接进行查看，如下是数据超过了表中的 Schema 中 country 列的实际度：

                Python
                
            

                [root@VM-10-6-centos ~]$ curl "http://10.16.10.6:28747/api/_load_error_log?file=__shard_2/error_log_insert_stmt_7602ccd7c3a4854-95307efca7bfe342_7602ccd7c3a4854_95307efca7bfe342"
Reason: column_name[country], the length of input is too long than schema. first 32 bytes of input str: [USA] schema length: 1; actual length: 3; . src line []; 
Reason: column_name[country], the length of input is too long than schema. first 32 bytes of input str: [Canada] schema length: 1; actual length: 6; . src line []; 
Reason: column_name[country], the length of input is too long than schema. first 32 bytes of input str: [UK] schema length: 1; actual length: 2; . src line []; 
Reason: column_name[country], the length of input is too long than schema. first 32 bytes of input str: [Australia] schema length: 1; actual length: 9; . src line [];
            

同时对于数据质量的错误，如果可以允许错误数据跳过的，可以通过在 S3 Load 任务中 Properties 设置容错率。

3.4. 导入多个文件的数据

当需要迁移大数据量的存量数据时，建议使用分批导入的策略。每批数据对应 PALO 的一个分区或少量几个分区，数据量建议不超过 100GB，以减轻系统压力并降低导入失败后的重试成本。

本地文件

导入方式

数据仓库 PALO