Parquet格式

更新时间：2025-08-21

Parquet格式

Parquet 是一种高效的文件格式，以列为单位存储数据。ClickHouse 提供对 Parquet 文件的读取和写入支持。

从 Parquet 导入

在加载数据之前，我们可以使用file()函数来探索示例 parquet 文件结构：

Plain Text

1DESCRIBE TABLE file('data.parquet', Parquet);

使用Parquet作为第二个参数，因此 ClickHouse 知道文件格式。这将打印具有以下类型的列：

Plain Text

1┌─name─┬─type─────────────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
2│ path │ Nullable(String) │              │                    │         │                  │                │
3│ date │ Nullable(String) │              │                    │         │                  │                │
4│ hits │ Nullable(Int64)  │              │                    │         │                  │                │
5└──────┴──────────────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

还可以在实际导入数据之前利用SQL的所有功能搜索文件：

Plain Text

1SELECT *
2FROM file('data.parquet', Parquet)
3LIMIT 3;

Plain Text

1┌─path──────────────────────┬─date───────┬─hits─┐
2│ Akiba_Hebrew_Academy      │ 2017-08-01 │  241 │
3│ Aegithina_tiphia          │ 2018-02-01 │   34 │
4│ 1971-72_Utah_Stars_season │ 2016-10-01 │    1 │
5└───────────────────────────┴────────────┴──────┘

导入到现有表

创建一个表，将 Parquet 数据导入其中：

Plain Text

1CREATE TABLE sometable
2(
3    `path` String,
4    `date` Date,
5    `hits` UInt32
6)
7ENGINE = MergeTree
8ORDER BY (date, path);

使用以下FROM INFILE句子导入数据：

Plain Text

1INSERT INTO sometable
2FROM INFILE 'data.parquet' FORMAT Parquet;
3
4SELECT *
5FROM sometable
6LIMIT 5;

Plain Text

1┌─path──────────────────────────┬───────date─┬─hits─┐
2│ 1988_in_philosophy            │ 2015-05-01 │   70 │
3│ 2004_Green_Bay_Packers_season │ 2015-05-01 │  970 │
4│ 24_hours_of_lemans            │ 2015-05-01 │   37 │
5│ 25604_Karlin                  │ 2015-05-01 │   20 │
6│ ASCII_ART                     │ 2015-05-01 │    9 │
7└───────────────────────────────┴────────────┴──────┘

请注意ClickHouse如何自动将Parquet字符串（在date列中）转换为Date类型。这是因为 ClickHouse 根据目标表中的类型自动进行类型转换。

将本地文件插入到远程服务器

如果要将本地 Parquet 文件插入到远程 ClickHouse 服务器，可以通过将文件内容导入来实现clickhouse-client，如下所示：

Plain Text

1clickhouse client -q "INSERT INTO sometable FORMAT Parquet" < data.parquet

从Parquet文件创建新表

从Parquet文件创建新表：

Plain Text

1CREATE TABLE imported_from_parquet
2ENGINE = MergeTree
3ORDER BY tuple() AS
4SELECT *
5FROM file('data.parquet', Parquet)

自动从给定的Parquet文件创建和填充表格：

Plain Text

1DESCRIBE TABLE imported_from_parquet;

Plain Text

1┌─name─┬─type─────────────┬─default_type─┬─default_expression─┬─comment─┬─codec_expression─┬─ttl_expression─┐
2│ path │ Nullable(String) │              │                    │         │                  │                │
3│ date │ Nullable(String) │              │                    │         │                  │                │
4│ hits │ Nullable(Int64)  │              │                    │         │                  │                │
5└──────┴──────────────────┴──────────────┴────────────────────┴─────────┴──────────────────┴────────────────┘

默认情况下，ClickHouse 对列名、类型和值的要求很严格。但有时，我们可以在导入过程中跳过不存在的列或不支持的值。

导出为Parquet格式

要将任何表或查询结果导出到Parquet文件，可以使用以下INTO OUTFILE句子：

Plain Text

1SELECT *
2FROM sometable
3INTO OUTFILE 'export.parquet'
4FORMAT Parquet

ClickHouse和Parquet数据类型

ClickHouse 和 Parquet 数据类型大部分相同，但仍有一点不同。例如，ClickHouse 将DateTime类型导出为 Parquets' int64。如果将其导入回 ClickHouse，将看到：

Plain Text

1SELECT * FROM file('time.parquet', Parquet);

Plain Text

1┌─n─┬───────time─┐
2│ 0 │ 1673622611 │
3│ 1 │ 1673622610 │
4│ 2 │ 1673622609 │
5│ 3 │ 1673622608 │
6│ 4 │ 1673622607 │
7└───┴────────────┘

2.在这种情况下可以使用类型转换：

Plain Text

1SELECT
2    n,
3    toDateTime(time)                 <--- int to time
4FROM file('time.parquet', Parquet);

Plain Text

1┌─n─┬────toDateTime(time)─┐
2│ 0 │ 2023-01-13 15:10:11 │
3│ 1 │ 2023-01-13 15:10:10 │
4│ 2 │ 2023-01-13 15:10:09 │
5│ 3 │ 2023-01-13 15:10:08 │
6│ 4 │ 2023-01-13 15:10:07 │
7└───┴─────────────────────┘

从MySQL导入和同步

JSON

MapReduce BMR

MapReduce BMR

Parquet格式

Parquet格式

从 Parquet 导入

导入到现有表

将本地文件插入到远程服务器

从Parquet文件创建新表

导出为Parquet格式

ClickHouse和Parquet数据类型