产品简介

MapReduce BMR

  • 发行版本
  • 功能发布记录
  • 产品描述
    • 节点类型说明
    • 产品优势
    • 应用场景
    • 产品功能
    • 产品简介
  • Python-SDK
    • Cluster(集群)
    • BmrClient
    • 异常处理
    • InstanceGroup(实例组)
    • 简介
    • 文档更新记录
    • Step(作业)
    • 版本变更记录
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
  • 开源组件介绍
    • Impala
    • Pig
    • Druid
    • Presto
    • Hue
    • Ooize
    • HBase
    • Kudu
    • Sqoop
    • Hadoop-Streaming
    • Zeppelin
    • Alluxio
    • Kerberos
      • 集群互信配置
      • 概述
    • ClickHouse
      • 常见问题
      • 数据迁移同步
        • 从Spark导入
        • 从Kafka同步数据
        • 将自建ClickHouse数据迁移到云ClickHouse中
        • 从Flink导入
        • 从MySQL导入和同步
        • 从本地数据导入
          • Parquet格式
          • JSON
          • SQL转储
          • CSV and TSV
      • 快速入门
        • 访问模式
        • 客户端登录
        • 创建ClickHouse集群
        • 基础操作
      • 运维相关操作
        • ClickHouse集群扩容
        • ClickHouse集群缩容
        • 日志配置说明
        • 监控告警配置
    • Ranger
      • ranger概述
      • 权限策略配置
    • Paimon
      • Hive示例
      • StarRocks示例
      • 联合查询示例
      • Flink示例
      • Spark示例
    • Flink
      • 基础使用
    • Trino
      • 基础使用
      • 概述
    • Spark
      • 引擎增强
      • 基础使用
    • Hive
      • 开发指南
        • 自定义函数(UDF)
      • 实践操作
        • Hive迁移
        • Hive操作HBase外表
      • 基础使用
        • Hive基础操作
        • Hive连接方式
  • Java-SDK
    • Cluster(集群)
    • 异常
    • BmrClient
    • InstanceGroup(实例组)
    • 日志
    • 文档更新记录
    • 版本更新记录
    • Step(作业)
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
    • 概述
  • 快速入门
    • 操作流程概览
    • 环境准备
    • 创建集群
    • 数据准备
    • 开发作业
    • 查看结果
    • ClickHouse
      • 导入数据
      • 创建数据库
      • 连接集群
      • 创建表
  • 操作指南
    • 集群模板
    • 服务管理
    • 集群配置
      • 用户管理
      • 弹性伸缩
      • 创建集群
      • 集群安全模式
      • EIP
      • Hive元数据说明
      • 集群审计
      • 配置已有集群
      • 安全组
    • 管理作业
      • 创建作业
      • 诊断、调优
      • 定时任务
      • 查看作业
    • 访问集群
      • 访问集群服务页面
      • 访问集群-openVPN访问集群
      • 使用OpenVPN提交Hadoop作业
      • SSH连接到集群
    • 实践操作
      • 存储数据至HBase
      • 导入数据
      • 编译Maven项目
      • Sqoop导入导出数据
        • 导出数据
    • 权限管理
      • 多用户访问控制
      • 用户管理
    • 集群管理
      • 节点管理
      • 监控报警
      • 集群指标
      • 资源管理
  • 服务等级协议SLA
    • BMR服务等级协议SLA
  • API参考
    • 通用说明
    • 公共头
    • 数据类型
    • 版本更新记录
    • 服务域名
    • 实例操作接口
    • 实例组操作接口
    • 集群操作接口
    • API简介
    • 错误码
  • 常见问题
    • 安全性问题
    • 计费类问题
    • 常见问题总览
    • 性能类问题
    • 配置类问题
    • 故障类问题
  • 视频专区
    • 操作指南
    • 产品介绍
  • 场景教程
    • 流式应用场景
    • 离线应用场景
    • 使用Hive分析网站日志
    • Sqoop应用文档
    • 定时分析日志数据
    • HIVE
      • 不同集群的 Hive 迁移方案
      • Hive 操作 Hbase 外部表
  • 产品定价
    • 转换计费方式
    • 计费项
    • 到期或欠费说明
    • 包年包月计费
    • 续费说明
    • 变更配置计费说明
    • 计费方式
    • 按需计费
    • 账单和用量查询
    • 退款说明
所有文档
menu
没有找到结果,请重新输入

MapReduce BMR

  • 发行版本
  • 功能发布记录
  • 产品描述
    • 节点类型说明
    • 产品优势
    • 应用场景
    • 产品功能
    • 产品简介
  • Python-SDK
    • Cluster(集群)
    • BmrClient
    • 异常处理
    • InstanceGroup(实例组)
    • 简介
    • 文档更新记录
    • Step(作业)
    • 版本变更记录
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
  • 开源组件介绍
    • Impala
    • Pig
    • Druid
    • Presto
    • Hue
    • Ooize
    • HBase
    • Kudu
    • Sqoop
    • Hadoop-Streaming
    • Zeppelin
    • Alluxio
    • Kerberos
      • 集群互信配置
      • 概述
    • ClickHouse
      • 常见问题
      • 数据迁移同步
        • 从Spark导入
        • 从Kafka同步数据
        • 将自建ClickHouse数据迁移到云ClickHouse中
        • 从Flink导入
        • 从MySQL导入和同步
        • 从本地数据导入
          • Parquet格式
          • JSON
          • SQL转储
          • CSV and TSV
      • 快速入门
        • 访问模式
        • 客户端登录
        • 创建ClickHouse集群
        • 基础操作
      • 运维相关操作
        • ClickHouse集群扩容
        • ClickHouse集群缩容
        • 日志配置说明
        • 监控告警配置
    • Ranger
      • ranger概述
      • 权限策略配置
    • Paimon
      • Hive示例
      • StarRocks示例
      • 联合查询示例
      • Flink示例
      • Spark示例
    • Flink
      • 基础使用
    • Trino
      • 基础使用
      • 概述
    • Spark
      • 引擎增强
      • 基础使用
    • Hive
      • 开发指南
        • 自定义函数(UDF)
      • 实践操作
        • Hive迁移
        • Hive操作HBase外表
      • 基础使用
        • Hive基础操作
        • Hive连接方式
  • Java-SDK
    • Cluster(集群)
    • 异常
    • BmrClient
    • InstanceGroup(实例组)
    • 日志
    • 文档更新记录
    • 版本更新记录
    • Step(作业)
    • Instance(实例)
    • 快速入门
    • 安装SDK工具包
    • 概述
  • 快速入门
    • 操作流程概览
    • 环境准备
    • 创建集群
    • 数据准备
    • 开发作业
    • 查看结果
    • ClickHouse
      • 导入数据
      • 创建数据库
      • 连接集群
      • 创建表
  • 操作指南
    • 集群模板
    • 服务管理
    • 集群配置
      • 用户管理
      • 弹性伸缩
      • 创建集群
      • 集群安全模式
      • EIP
      • Hive元数据说明
      • 集群审计
      • 配置已有集群
      • 安全组
    • 管理作业
      • 创建作业
      • 诊断、调优
      • 定时任务
      • 查看作业
    • 访问集群
      • 访问集群服务页面
      • 访问集群-openVPN访问集群
      • 使用OpenVPN提交Hadoop作业
      • SSH连接到集群
    • 实践操作
      • 存储数据至HBase
      • 导入数据
      • 编译Maven项目
      • Sqoop导入导出数据
        • 导出数据
    • 权限管理
      • 多用户访问控制
      • 用户管理
    • 集群管理
      • 节点管理
      • 监控报警
      • 集群指标
      • 资源管理
  • 服务等级协议SLA
    • BMR服务等级协议SLA
  • API参考
    • 通用说明
    • 公共头
    • 数据类型
    • 版本更新记录
    • 服务域名
    • 实例操作接口
    • 实例组操作接口
    • 集群操作接口
    • API简介
    • 错误码
  • 常见问题
    • 安全性问题
    • 计费类问题
    • 常见问题总览
    • 性能类问题
    • 配置类问题
    • 故障类问题
  • 视频专区
    • 操作指南
    • 产品介绍
  • 场景教程
    • 流式应用场景
    • 离线应用场景
    • 使用Hive分析网站日志
    • Sqoop应用文档
    • 定时分析日志数据
    • HIVE
      • 不同集群的 Hive 迁移方案
      • Hive 操作 Hbase 外部表
  • 产品定价
    • 转换计费方式
    • 计费项
    • 到期或欠费说明
    • 包年包月计费
    • 续费说明
    • 变更配置计费说明
    • 计费方式
    • 按需计费
    • 账单和用量查询
    • 退款说明
  • 文档中心
  • arrow
  • MapReduceBMR
  • arrow
  • 产品描述
  • arrow
  • 产品简介
本页目录
  • 概述
  • MapReduce组件
  • 高可用架构
  • Hadoop-3.0.0以及以上集群版本服务部署情况:
  • Hadoop-3.0.0以下集群版本服务部署情况:
  • ClickHouse

产品简介

更新时间:2025-08-21

概述

MapReduce(简称“BMR”)是托管的一站式大数据平台,提供高可靠、高安全性、高性价比、易运维的分布式计算服务,涵盖 Hadoop、Spark、Hive、Flink、Presto、Druid等多种开源组件,并与百度对象存储无缝衔接,助力企业轻松高效地处理海量数据。

MapReduce支持完整的Hadoop生态:

  • Hadoop:提供可靠存储HDFS以及MapReduce编程范式以便大规模并行处理数据。
  • Spark:提供基于分布式内存的大规模并行处理框架,从而大大提高大数据分析性能。Spark提供了SQL查询接口、流数据处理以及机器学习。
  • HBase:大规模分布式NoSQL数据库,提供随机存取大量的非结构化和半结构化的海量数据。
  • ClickHouse:是一个开源的列式存储数据库管理系统,多用于联机分析(OLAP)场景,可提供海量数据的存储和分析,同时利用其数据压缩和向量化引擎的特性,能提供快速的数据搜索。

与自己搭建Hadoop集群相比,MapReduce有以下优势:

  • 方便:几分钟便可创建集群,无需为节点分配、部署、优化投入时间。
  • 弹性:创建任意大小的集群并动态调整集群规模,高峰期加大集群规模以提高计算能力,低峰期可对应缩减集群规模降低花费。
  • 开放:完全兼容开源Hadoop/Spark社区,零成本业务迁移。
  • 实惠:支持按需付费以及包年包月,计价简单而透明。
  • 安全:专属私有网络,独占系统环境,确保数据安全。

MapReduce组件

  • MapReduce:用于大规模数据集的分布式并行计算的编程模型,极大地方便了开发者在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
  • Spark:开源的集群计算框架。Spark通过拓展内存计算可在海量数据的迭代式计算和交互式计算中提供远快于Hadoop的运算速度。同时,Spark支持SQL请求、流数据处理、机器学习和图表处理,提高开发者效率。
  • HBase:开源的、非关系型、分布式的列式数据库,为Hadoop提供NoSQL功能。
  • Hive:允许使用类似于SQL语法进行数据查询,适合数据仓库的分析任务。
  • Pig:是一种过程语言,可加载数据、表达转换数据以及存储最终结果,使得日志等半结构化数据变得有意义。
  • Hue:为了方便管理Hadoop集群以及执行Hive或者Pig脚本而提供的一系列网页应用。
  • Sqoop:用于Hadoop与传统的数据库间的数据导入和导出。
  • Zeppelin:Web版的notebook,用于数据分析和可视化,可无缝对接Hive、SparkSQL等。
  • ZooKeeper:提供分布式一致性锁,用于HDFS、YARN高可用,在HBase、Kafka、Druid中保证数据一致性。
  • Ranger:提供基于策略的用户权限管理服务,BMR中的Ranger支持对HDFS、Hive、HBase、Kafka配置用户权限。
  • Impala:为数据分析师提供的开源的OLAP数据分析引擎。Impala和Hive使用相同的元数据。
  • Presto:为数据分析师提供的开源的OLAP数据分析引擎。Presto和Hive使用相同的元数据。
  • Alluxio:是一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。
  • Airflow:是一个分布式的流程调度系统,在配置上可以像编程一样的方式去创作工作流,通过DAG定时和管理各种离线Job的调度平台。

高可用架构

Hadoop-3.0.0以及以上集群版本服务部署情况:

服务 组件 master1 master2 master3
HDFS Name node ✔️
SECONDARY_NAMENODE ✔️
DATANODE ✔️ ✔️ ✔️
ZKFC ✔️ ✔️ ✔️
YARN ResourceManger ✔️ ✔️ ✔️
TimeLineServer ✔️
MapReduce2 HistoryServer ✔️
HIVE HiveMetaStore ✔️ ✔️
HiveServer2 ✔️ ✔️
HBASE HMasterServer ✔️ ✔️
Zbookkeeper Zbookkeeper ✔️ ✔️ ✔️
Spark Spark2-HistoryServer ✔️
Spark2-ThriftServer ✔️ ✔️

Hadoop-3.0.0以下集群版本服务部署情况:

服务 组件 master1 master2 master3
HDFS Name node ✔️
JOURNALNODE ✔️
DATANODE ✔️ ✔️ ✔️
ZKFC ✔️ ✔️ ✔️
YARN ResourceManger ✔️ ✔️ ✔️
TimeLineServer ✔️
MapReduce2 HistoryServer ✔️
HIVE HiveMetaStore ✔️ ✔️
HiveServer2 ✔️ ✔️
HBASE HMasterServer ✔️ ✔️
Zbookkeeper Zbookkeeper ✔️ ✔️ ✔️
Spark Spark2-HistoryServer ✔️
Spark2-ThriftServer ✔️ ✔️

ClickHouse

图片.png

上一篇
产品功能
下一篇
Python-SDK