016-统计分析组件

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
所有文档
menu
没有找到结果,请重新输入

全功能AI开发平台 BML

  • 版本发布记录
  • 快速开始
    • 用BML实现表格预测
    • 用BML实现序列标注
    • 用BML实现文本实体抽取
    • 用BML实现图片分类
    • 用BML实现实例分割
    • 用BML评价短文本相似度
    • 用BML实现开源大模型的预训练(Post-pretrain)
    • 用BML实现文本分类
    • 用BML实现物体检测
  • 模型仓库
    • 从训练任务导入模型
    • 查看模型
    • 创建模型
    • 模型仓库简介
    • 从本地导入模型
    • 校验模型
    • 服务代码文件示例
      • Sklearn服务代码文件示例
      • XGBoost服务代码文件示例
  • 平台管理
    • 权限管理
    • 在BML平台使用并行文件系统PFS和对象存储BOS
    • 在BML平台使用容器镜像服务CCR
    • 在BML使用外部镜像
    • 项目空间管理
    • 镜像管理
      • 镜像使用
      • 镜像管理简介
      • 常见问题
      • 自定义镜像
    • 资源管理
      • 资源池管理简介
      • 资源池使用简介
  • 预测部署
    • 批量预测(用户资源池)API
    • 文字识别模型部署
      • 文字识别任务API参考文档
      • 文字识别任务公有云部署
    • 通用模型部署
      • 标准接口规范参考
      • Paddle框架API调用文档
      • sklearn框架API调用文档
      • 公有云部署
      • XGBoost框架API调用文档
      • tensorflow框架API调用文档
      • Pytorch框架API调用文档
      • 通用类模型API参考
      • 错误码
    • 语音技术模型部署
      • 声音分类API调用文档
    • 视觉模型部署
      • 智能边缘控制台-多节点版
      • 端云协同服务部署
      • 智能边缘控制台-单节点版
      • 视觉任务模型部署整体说明
      • 软硬一体方案部署
        • 视觉任务Jetson专用SDK集成文档
        • 如何获取视觉任务软硬一体产品
        • 视觉任务EdgeBoard(VMX)专用SDK集成文档
        • 视觉任务EdgeBoard(FZ)专用SDK集成文档
        • 视觉任务专用辨影SDK集成开发文档
      • 私有服务器部署
        • 视觉模型如何部署在私有服务器
        • 私有API
          • 如何发布私有API
          • 图像分类-单图单标签私有API集成文档
          • 图像分类-单图多标签私有API集成文档
          • 物体检测私有API集成文档
        • 服务器端SDK
          • 视觉任务服务器端LinuxSDK集成文档-Python
          • 视觉任务服务器端LinuxSDK集成文档-C++
          • 如何发布服务器端SDK
          • 视觉任务服务器端WindowsSDK集成文档
          • 视觉任务服务器端SDK简介
      • 设备端SDK部署
        • 视觉任务WindowsSDK集成文档
        • 视觉任务iOSSDK集成文档
        • 视觉任务LinuxSDK集成文档-Python
        • 视觉任务LinuxSDK集成文档-C++
        • 视觉任务设备端SDK使用说明
        • 如何发布视觉任务设备端SDK
        • 视觉任务AndroidSDK集成文档
      • 公有云部署
        • 文字识别API参考文档
        • 视觉任务公有云部署
        • 物体检测API参考文档
        • 图像分类-单图单标签API参考文档
        • 实例分割API参考文档
        • 图像分类-单图多标签API参考文档
    • 表格预测模型部署
      • 整体说明
      • 公有云部署
    • 公有云部署管理
      • 配置AB测试版本
      • 批量预测服务
      • 公有云部署
      • 公有云部署简介
      • 配置休眠策略
    • NLP模型部署
      • 自然语言处理任务模型部署整体说明
      • 私有服务器部署
        • 如何部署在私有服务器
        • 私有服务API说明
          • 私有部署说明-短文本相似度
          • 私有化部署接口说明-文本分类
          • 私有部署文档-序列标注
          • 文本实体抽取API调用文档
      • 公有云部署
        • 短文本匹配API调用文档
        • 文本实体抽取私有API调用说明
        • 如何发布自然语言处理任务API
        • 文本分类-多标签API调用文档
        • 文本分类API调用文档
        • 序列标注API调用文档
  • 数据服务
    • 数据服务简介
    • 智能数据API
    • 公有云服务调用数据反馈
    • 智能标注
      • 文本智能标注介绍及原理说明
      • 图像智能标注介绍说明
    • 管理视觉数据
      • 实例分割数据导入与标注
        • 数据标注说明
        • 导入未标注数据
        • 导入已标注数据
      • 物体检测数据导入与标注
        • 物体检测数据标注说明
        • 物体检测导入未标注数据
        • 物体检测导入已标注数据
      • 图像分类数据导入与标注
        • 图像分类导入未标注数据
        • 图像分类导入已标注数据
        • 图像分类数据标注说明
    • 管理文本数据
      • 文本分类数据导入与标注
        • 文本分类数据标注说明
        • 文本分类数据导入与标注
        • 数据去重策略
      • 序列标注数据导入与标注
        • 序列标注标注说明
        • 序列标注数据导入
        • 数据去重策略
      • 文本实体抽取数据标注
        • 文本实体抽取数据标注
        • 文本实体抽取数据导入
        • 数据去重策略
      • 短文本匹配数据导入与标注
        • 短文本匹配数据导入与标注
        • 数据去重策略说明
        • 短文本匹配数据标注
  • 产品简介
    • BML平台升级公告
    • 平台重点升级介绍
    • 产品优势
    • 产品功能
    • 什么是BML
    • 文心大模型
  • 产品定价
    • 服务器部署价格说明
    • 专项适配硬件部署价格说明
    • 公有云部署计费说明
    • 批量预测计费说明
    • 模型训练计费说明
    • 通用小型设备部署价格说明
  • 模型训练
    • Notebook建模
      • 创建并启动Notebook
      • Notebook导入数据集
      • 保存Notebook中的模型
      • Notebook使用参考
      • 常见问题
      • 数据模型可视化功能说明
      • Notebook简介
      • 发布模型
      • 配置模型
      • 使用Notebook开发模型
      • 如何使用Notebook SSH 功能
      • Notebook从训练到部署快速入门
        • Codelab Notebook自定义环境部署最佳实践
        • 基于Notebook的图像分类模板使用指南
        • 基于 Notebook 的 NLP 通用模板使用指南
        • Notebook 模板使用指南概述
        • 基于 Notebook 的通用模板使用指南
        • 基于 Notebook 的物体检测模板使用指南
    • 自定义作业建模
      • 自定义作业简介
      • 训练作业API
      • 训练作业
        • 使用训练作业训练模型
        • 创建训练作业
        • 发布模型
        • 训练作业代码示例
          • TensorFlow 1.13.2
          • AIAK- Training Pytorch版
          • TensorFlow 2.3.0
          • Blackhole 1.0.0
          • Pytorch 1.7.1
          • Sklearn 0.23.2
          • XGBoost 1.3.1
          • PaddlePaddle 2.0.0rc
      • 自动搜索作业
        • 创建自动搜索作业
        • yaml文件编写规范
        • 自动搜索作业简介
        • 自动搜索作业代码编写规范
        • 自动搜索作业代码示例
          • XGBoost 1.3.1代码规范
          • TensorFlow 1.13.2代码规范
          • Sklearn 0.23.2代码规范
          • Pytorch 1.7.1代码规范
          • Tensorflow2.3.0代码规范
          • PaddlePaddle 2.1.1代码规范
    • 可视化建模
      • 快速入门
      • 概述
      • 组件菜单
        • 001-基本操作
        • 003-查看模型特征溯源
        • 007-组件状态
        • 008-组件资源配置
        • 006-组件列选择
        • 002-查看模型可解释性
        • 004-查看特征重要性
      • 组件说明
        • 015-图算法
        • 004-特征工程组件
        • 003-数据处理组件
        • 012-预测组件
        • 008-聚类算法
        • 009-Python算法组件
        • 002-数据集组件
        • 014-自然语言处理组件
        • 010-NLP算法
        • 016-统计分析组件
        • 006-回归算法
        • 007-异常检测算法
        • 013-模型评估组件
        • 005-分类算法
        • 018-时间序列组件
      • 画布操作说明
        • 005-AutoML(自动调参)
        • 002-开始训练
        • 001-概述
    • 预置模型调参建模
      • 预置模型调参简介
      • 神经网络训练搜索
      • 开发视觉模型
        • 视觉任务简介
        • 查看训练结果
        • 创建视觉任务
        • 配置视觉任务
        • 开发参考
          • 视觉预训练模型
          • 超参数配置参考
          • 评估报告参考
          • 自动超参搜索配置参考
          • 数据增强算子参考
          • 训练时长设置参考
          • 网络选型参考
      • 开发表格预测模型
        • 创建表格预测任务
        • 配置专家模式表格数据预测任务
        • 查看训练结果
        • 配置AUTOML模式表格数据预测任务
        • 表格预测任务简介
      • 开发文字识别模型
        • 文字识别任务简介
        • 文字识别任务操作流程
      • 开发自然语言处理模型
        • 查看训练结果
        • 自然语言处理任务简介
        • 配置NLP任务
        • 创建NLP任务
        • 代码模板升级及迁移说明
  • 文档中心
  • arrow
  • 全功能AI开发平台BML
  • arrow
  • 模型训练
  • arrow
  • 可视化建模
  • arrow
  • 组件说明
  • arrow
  • 016-统计分析组件
本页目录
  • AutoRegression
  • F检验
  • KS检验
  • 单样本T检验
  • PSI检验
  • 双样本T检验
  • U检验
  • 卡方拟合性检验
  • 卡方独立性检验
  • 相关系数矩阵
  • 协方差
  • 直方图
  • 洛伦兹曲线
  • 正态检验
  • 皮尔森系数
  • 全表统计

016-统计分析组件

更新时间:2025-08-21

统计分析组件

AutoRegression

自相关函数,求解时间序列的自相关性,可以表现出模型的平稳性。

输入

  • 输入是一个数据集,需要选择要做AR的两列。选择的检验列需要是数值类型,排序列用于排序。

输出

  • 输出是一个结果数据集。包含两列:lag,correlation,列的类型分别是bigint和double。

算子参数

参数名称 是否必选 参数描述 默认值
最大lag 是 统计时考虑的最大lag 范围:[1, 3653]。 100

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 选择一列检验列,数值类型。 无
排序列 是 AR检验列依据此列由小到大排序,一般选择日期列。 无

使用示例

  1. 输入数据集为天气数据,Date代表日期,Temp代表温度。

image.png

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出数据。

image.png

  1. 查看分析报告结果。

image.png

F检验

F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从 F-分布 的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。

输入

  • 输入是一个数据集,需要选择要做F检验的一列。选择的列需要是数值类型。进一步地,还需要选择F检验对应的标签列。标签列要求是整数或字符串类型。

输出

  • 输出是一个结果数据集。包含两列:f值(f_value),置信度(p_value)。列的类型是double。

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 选择一列检验列,数值类型。 无
排序列 是 分组依据,要求是整数或字符串类型;不能存在nan(缺失值)。 无

使用示例

1.构建算子结构,配置参数,完成训练。

image.png

2.查看输出数据集结果。

image.png

KS检验

KS 检验(Kolmogorov-Smirnov 检验)是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。系统中实现的为比较两个经验分布是否有显著差异。原假设为两个样本的分布相同,如果 ks 统计量小或者 p 值高,则我们不能拒绝原假设。

输入

  • 输入是一个数据集。用户需要选择要做KS检验的两列(必须为两列),选择的列需要是数值类型。

输出

  • 输出是一个结果数据集。包含两列:KS值(statistic),置信度(pValue),列的类型是double。

算子参数

参数名称 是否必选 参数描述 默认值
替代方式 否 替代假设方式:
two-sided
greater
less
two-sided
计算模式 否 计算p值的方式:
auto
asym
exact
auto

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 必须是两列,并且是数值类型。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

单样本T检验

T 检验,亦称 student T 检验(Student's T test),主要用于样本含量较小(例如 n < 30),总体标准差 σ 未知的正态分布。T 检验是用 T 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 单样本 T 检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。

输入

  • 输入是一个数据集。用户需要选择要做单样本T检验的一列。选择的列需要是数值类型。进一步地,还需要输入总体均值(零假设中的期望值)。

输出

  • 输出是一个结果数据集。包含两列:t值(t_statistic),置信度(p_value),列的类型是double。

算子参数

参数名称 是否必选 参数描述 默认值
nan政策 否 当输入包含nan时如何处理:
“propagate”(默认)返回nan
“raise”引发错误
“omit”忽略nan值计算
propagate

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 选择一列检验列,数值类型。 无
总体均值 是 零假设中的期望值。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

PSI检验

群体稳定性指标 PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标。

输入

  • 输入是一个数据集。用户需要选择要做PSI检验列。选择的列需要是数值类型,其中包括实际值列和预测值列。

输出

  • 输出是一个结果数据集。包含一列:稳定度指标(psi),列的类型是double。

算子参数

参数名称 是否必选 参数描述 默认值
分箱方式 是 计算PSI分箱方式支持:
bins 均匀分箱
quantiles 分位数分箱
bins
分箱个数 是 计算PSI时分箱个数 10

字段参数

参数名称 是否必选 参数描述 默认值
实际值列 是 实际值,要求是数值类型 无
预测值列 是 预测值,要求是数值类型 无

计算逻辑

image.png

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

双样本T检验

双样本 T 检验利用 T 分布理论来检验两个总体均值是否显著差异。

输入

  • 输入是一个数据集。用户需要选择要做双样本T检验的两列。选择的列需要是数值类型。

输出

  • 输出是一个结果数据集。包含两列:t值(t_statistic),置信度(p_value),列的类型是double。

算子参数

参数名称 是否必选 参数描述 默认值
假定总体方差相等 否 如果为True(默认),则执行一个标准的独立2样本t检验,该检验假定总体方差相等。如果为False,则执行Welch的t检验,该检验不假定总体方差相等。 开启
nan政策 否 当输入包含nan时如何处理:
“propagate”(默认)返回nan
“raise”引发错误
“omit”忽略nan值计算
propagate

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 必须是两列,并且是数值类型。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

U检验

U 检验是一种用来评估两个独立的顺序数据样本是否来自同一个总体的非参数检验。系统中实现的为 Mann-Whitney U 检验(曼-惠特尼 U 检验),它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是检验这两个总体的均值是否有显著的差别。

输入

  • 输入是一个数据集。用户需要选择要做U检验的两列(必须为两列),选择的列需要是数值类型。

输出

  • 输出是一个结果数据集。包含两列:U值(u_statistic),置信度(p_value),列的类型是double。

算子参数

参数名称 是否必选 参数描述 默认值
替代方式 是 替代假设方式:
two-sided
greater
less
two-sided
连续性校正 否 是否考虑连续性校正 开启

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 必须是两列,并且是数值类型。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

卡方拟合性检验

卡方拟合性检验用于检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,其中实际观测次数是根据样本数据得到的实计数,理论次数则是根据理论或经验得到的期望次数。 卡方拟合性检验的零假设是观测次数与理论次数之间无差异。

输入

  • 输入是一个数据集。用户需要选择要做卡方拟合性检验的一列,选择的列需要是数值类型。

输出

  • 输出是一个结果数据集。包含三列:卡方值,自由度,置信度,列的类型是double。

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 选择一列检验列,必须是数值类行。 无

计算逻辑

卡方拟合性检验统计量:

image.png

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

卡方独立性检验

卡方独立性检验用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题。所谓独立,即无关联,互不影响,就意味着一个因素各个分类之间的比例关系,在另一个因素的各项分类下都是相同的。 卡方独立性检验的零假设是各因素之间相互独立。 卡方独立性检验统计量与卡方拟合性检验统计量计算公式一致,统称为卡方检验统计量。

输入

  • 输入是一个数据集。用户需要选择要做卡方独立性检验的两列(必须是两列),选择的列需要是数值类型。

输出

  • 输出是一个结果数据集。包含三列:卡方值,自由度,置信度,列的类型是double。

字段参数

参数名称 是否必选 参数描述 默认值
检验列 是 必须是两列,并且是数值类型。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看训练结果。

image.png

相关系数矩阵

相关系数矩阵是由矩阵各列对应的变量间的相关系数构成的。也就是说,相关系数矩阵的第 i 行第 j 列元素是矩阵第 i 列和第 j 列对应变量的相关系数。组件支持皮尔森(pearson)相关系数和斯皮尔曼(spearman)相关系数。

输入

  • 输入是一个数据集,选择任意几列数据,所有选择的列都必须是数字类型。

输出

  • 输出数据之间的相关系数矩阵。

字段参数

参数名称 是否必选 参数描述 默认值
计算方法 是 相关系数的计算方法:
pearson
spearman
无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看训练结果。

image.png

协方差

协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 如果协方差为正,说明两个变量同向变化,协方差越大说明同向程度越高;如果协方差为负,说明两个变量反向变化,协方差越小说明反向程度越高。

输入

  • 输入是一个数据集。用户需要选择要计算协方差的两列(必须是两列),选择的列需要是数值类型。

输出

  • 输出协方差计算结果。

字段参数

参数名称 是否必选 参数描述 默认值
选择两列数据 是 必须是数值类型。 无

计算逻辑

image.png

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出数据。

image.png

直方图

在统计学中,直方图是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。

输入

  • 输入是一个数据集,选择任意几列需要绘制直方图的数据,数据必须是数字类型。

输出

  • 所有选择列的直方图数据

    • 格式: start0,end0,count0;start1,end1,count1;.....;start(n-1),end(n-1),count(n-1)
    • start,end: 区间的最小值和最大值
    • count:区间的数据个数
  • 右键查看分析报告展示所选数据的直方图。

字段参数

参数名称 是否必选 参数描述 默认值
字段选择 是 需要是数值类型。 无
区间个数 是 配置区间个数,范围:[2, inf)。 100

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出数据。

image.png

  1. 查看分析报告结果。

image.png

洛伦兹曲线

洛伦兹曲线研究的是国民收入在国民之间的分配问题,它用以比较和分析一个国家在不同时代或者不同国家在同一时代的财富不平等状况。 洛伦兹曲线的横轴表示人口(按收入由低到高分组)的累积百分比,纵轴表示收入的累积百分比。 洛伦兹曲线的弯曲程度有重要意义。一般来讲,它反映了收入分配的不平等程度。弯曲程度越大,收入分配越不平等,反之亦然。

输入

  • 输入是一个数据集,选择任意几列需要绘制洛伦兹曲线的数据,配置区间个数。

输出

  • 输出洛伦兹曲线对应值与绘制图标。

字段参数

参数名称 是否必选 参数描述 默认值
字段选择 是 需要是数值类型。 无
区间个数 是 配置区间个数,范围:[2, inf)。 100

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出数据。

image.png

  1. 查看分析报告。

image.png

正态检验

利用观测数据判断总体是否服从正态分布的检验称为正态检验,它是统计判决中重要的一种特殊的拟合优度假设检验。常用的正态检验方法有正态概率纸、柯尔莫可洛夫-斯米洛夫检验等。

输入

  • 输入是一个数据集,需要制定进行正态检验的数据列,列类型是数值类型。

输出

  • 输出正态检验的置信度和kstest值。

字段参数

参数名称 是否必选 参数描述 默认值
选择字段列 是 需要是数值类型。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 查看输出结果。

image.png

  1. 查看分析报告。

image.png

皮尔森系数

柯尔莫可洛夫-斯米洛夫检验基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。 K-S检验的基本思路是:先将理论累积频率分布与观测的经验累积频率分布加以比较,求出它们最大的偏离值,然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。

输入

  • 输入是一个数据集,需要选择计算皮尔森系数的两列数据,必须是数值类型。

输出

  • 输出是计算后的皮尔森系数结果。

字段参数

参数名称 是否必选 参数描述 默认值
选择两列数据 是 必须是数值类型。 无

计算逻辑

image.png

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 输出皮尔森系数计算结果。

image.png

全表统计

统计各种指标信息,包括总数、NAN、正无穷数量、负无穷数量、标准误差、偏度、峰度、二阶矩、三阶矩、四阶矩、二阶中心距、三阶中心距、四阶中心距、总和等。

输入

  • 输入是一个数据集,选择需要进行统计的数据列,仅会统计数值类型的列。

输出

  • 输出已选择数据列的统计结果。

字段参数

参数名称 是否必选 参数描述 默认值
选择需要统计的列 是 仅会统计数值类型的列。 无

使用示例

  1. 构建算子结构,配置参数,完成训练。

image.png

  1. 右键“全表统计"组件,选择“查看数据” > "输出数据集",查看输出结果。

image.png

上一篇
010-NLP算法
下一篇
006-回归算法