扩展内置函数

百度流式计算 BSC

  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 应用场景
    • 产品功能
    • 核心概念
    • 概述
  • 快速入门
    • 开通服务
    • 开发作业
  • 典型实践
    • CDN 日志提取中转(ETL)
    • API 日志调用统计
    • CDN 接口日志聚合统计
    • 物联网设备实时报警统计(流表Join)
    • 物设备报警情况实时统计
    • 物联网设备实时监控预警
  • 操作指南
    • 多用户访问控制
    • 作业运维
    • 扩展内置函数
    • 编辑作业
    • 模板管理
    • 新增作业
    • 资源管理
  • API参考
    • 接口概述
    • 通用说明
    • 公共头
    • 模板相关接口
    • 模型定义
    • 服务域名
    • 请求返回格式
    • 作业实例相关接口
    • 作业相关接口
    • 资源相关接口
  • 常见问题
    • 一般问题
  • 自定义JAR作业
    • Flink自定义JAR作业
    • Spark自定义JAR作业
  • SQL
    • DML语句
    • SET 语句
    • 内置函数
    • 标识符和关键字
    • 窗口函数
    • 概述
    • DDL 语句
      • KAFKA
      • Formats
      • ES
      • Overview
      • PALO
      • TSDB
      • BKAFKA
      • RDS
      • BOS
      • MQTT
所有文档
menu
没有找到结果,请重新输入

百度流式计算 BSC

  • 产品定价
  • 功能发布记录
  • 产品描述
    • 产品优势
    • 应用场景
    • 产品功能
    • 核心概念
    • 概述
  • 快速入门
    • 开通服务
    • 开发作业
  • 典型实践
    • CDN 日志提取中转(ETL)
    • API 日志调用统计
    • CDN 接口日志聚合统计
    • 物联网设备实时报警统计(流表Join)
    • 物设备报警情况实时统计
    • 物联网设备实时监控预警
  • 操作指南
    • 多用户访问控制
    • 作业运维
    • 扩展内置函数
    • 编辑作业
    • 模板管理
    • 新增作业
    • 资源管理
  • API参考
    • 接口概述
    • 通用说明
    • 公共头
    • 模板相关接口
    • 模型定义
    • 服务域名
    • 请求返回格式
    • 作业实例相关接口
    • 作业相关接口
    • 资源相关接口
  • 常见问题
    • 一般问题
  • 自定义JAR作业
    • Flink自定义JAR作业
    • Spark自定义JAR作业
  • SQL
    • DML语句
    • SET 语句
    • 内置函数
    • 标识符和关键字
    • 窗口函数
    • 概述
    • DDL 语句
      • KAFKA
      • Formats
      • ES
      • Overview
      • PALO
      • TSDB
      • BKAFKA
      • RDS
      • BOS
      • MQTT
  • 文档中心
  • arrow
  • 百度流式计算BSC
  • arrow
  • 操作指南
  • arrow
  • 扩展内置函数
本页目录
  • 概述
  • 正则转换函数

扩展内置函数

更新时间:2025-08-21

概述

为了给用户提供更简单易用的SQL编辑器,除了提供Spark SQL原生函数外,将一些比较常规常用的函数集成为SQL编辑器的内置函数。

使用扩展内置函数的方式跟原生内置函数的方式一致。

正则转换函数

sysudf_regexp_extract

使用正则表达式,将字符串解析成结构化数据。支持在表达式中设定group name,并将此作为列名。未设置列名的列将根据所在位置设置默认名字:column1、column2等。

示例

  1. 新增SQL类型的作业,具体教程请参照新增作业。
  2. 编辑作业,以下是sysudf_regexp_extract函数的SQL作业示例。

    说明:如果只是在调试环节运行SQL作业示例,无需改动示例内容,直接粘贴到作业中,进行下一步。

    Plain Text
    1CREATE table source_table(
    2    log_field string
    3) with(
    4    type = 'KAFKA',
    5    topic = 'e390b8b0673e4680b0e9a39816595c87__test_for_bsc',
    6    kafka.bootstrap.servers = 'kafka.bj.baidubce.com:9091',
    7    sslFilePath = 'kafka-key.zip',
    8    encode = 'CSV'
    9);create table sink_table(
    10    first_col string,
    11    second_col string,
    12    third_col string,
    13    forth_col string
    14) with(
    15    type = 'KAFKA',
    16    topic = 'e390b8b0673e4680b0e9a39816595c87__bsc_sink',
    17    kafka.bootstrap.servers = 'kafka.bj.baidubce.com:9091',
    18    sslFilePath = 'kafka-key.zip',
    19    encode = 'CSV'
    20);
    21insert into
    22    sink_table(first_col,second_col ,third_col,forth_col)
    23    outputmode complete
    24select
    25    temp.uri,temp.ctime,temp.idc,temp.errno
    26from
    27    (select sysudf_regexp_extract(log_field, 'uri:(?<uri>[\\w\\/]+) got a pv - ctime:(?<ctime>\\d+) - dc:(?<idc>\\w+) - errno:(?<errno>\\d+)') as temp from source_table);
  3. 点击“调试”按钮,出现弹框,测试数据选择“手动录入”的方式,将下面的数据粘贴到输入框。

    uri:/test/index got a pv - ctime:1 - dc:testdc - errno:0

  4. 点击“开始调试”,开始调试作业,运行结果如下图所示。

上一篇
作业运维
下一篇
编辑作业