文章目录
- 1、运用场景
- 2、图形描述相关性
* - 2.1使用场景
- 2.2 代码实现
- 2.3 效果呈现
- 3、正态资料相关性分析
* - 3.1 使用场景
- 3.2 皮尔森相关系数
- 3.3 代码实现
- 3.4 结果分析
- 4、非正太资料的相关分析
* - 4.1 使用场景
- 4.2 斯皮尔曼等级相关系数
- 4.3 代码实现
- 4.4 结果分析
1、运用场景
相关性分析是研究两个或两个以上随机变量间相关关系的统计方法。在数据分析中,它常用于分析连续型自变量X与连续型因变量Y之间的关系。在待分析特征较少时,可使用做图法分析,特征较多时,可使用皮尔森或者斯皮尔曼等工具分析,这这些只能判断线性关系,如果要判断非线性关系,则可将连续数组分组以后使用方差分析对比各组之间的差异。
2、图形描述相关性
2.1使用场景
待分析的特征较少
散点图是在两变量相关性分析分析时最常用的展示方法。如下图所示。
本文使用Statsmodels 自带的 ccard数据集, 展示其中的INCOMESQ与IMCOME两个变量的相关性
2.2 代码实现
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
from statsmodels.datasets import ccard
data = ccard.load_pandas().data
print(data)
plt.scatter(data['INCOMESQ'],data['INCOME'])
plt.grid()
plt.show()
2.3 效果呈现
; 3、正态资料相关性分析
3.1 使用场景
待分析特征较多。可用它来分析 正态分布
的两个连续型变量之间的相关性,常用于分析自变量之间,以及自变量与因变量之间的相关性。
3.2 皮尔森相关系数
皮尔森相关系数是反应两个变量之间线性相关程度的统计量。
3.3 代码实现
import numpy as np
a = np.random.normal(0,1,100)
b = np.random.normal(2,2,100)
print(stats.pearsonr(a,b))
3.4 结果分析
- ret1:相关系数,其取值范围为[-1,1]。其值接近于1,正相关正读越强,接近于-1,负相关性越强,接近于0,相关性弱。
- ret2:p-value:皮尔森相关系数原假设为两组数据不存在相关性。p-value >0.05 接受原假设。
4、非正太资料的相关分析
4.1 使用场景
待分析特征较多,只考虑从变量值的顺序(rank,秩或称等级),而不考虑变量值的大小,常用于计算有序的类型变量的相关性。可以用于 非正太变量
的相关性检验,但是它只考虑数据大小的顺序,而不考虑具体的值,导致会丢失部分信息。
4.2 斯皮尔曼等级相关系数
主要用于评价顺序变量间的线性相关关系。
4.3 代码实现
from scipy import stats
import numpy as np
a = np.array([1,2,3,4,5])分析
b = np.array([1,6,7,8,20])
print(stats.spearmanr(a,b))
4.4 结果分析
SpearmanrResult(correlation=0.9999999999999999, pvalue=1.4042654220543672e-24)
- correlation:相关系数
- p-value:原假设为两组数据之间不存在相关性,p-value < 0.05 原假设
Original: https://blog.csdn.net/xdg15294969271/article/details/120177633
Author: 牛右刀薛面
Title: (9)数据分析-相关性分析
相关文章

量子密码学攻击——Improved Dual Lattice Attack
引言 当今的抗量子密钥交换和签名方案依赖于以下假设: Learning With Errors(LWE)及其algebraic 变种 Learning with Rounding(LWR)及其alge...

八、ResNet的网络结构及其代码实现(花的三分类)
文章目录 * - 前文 - 数据生成器+数据部分展示 - 构建ResNet模型 - + 首先构建残差学习模块之前的网络结构。 + 接着构建残差学习模块,其中利用循环的方法进行构建完整的ResNet_5...

TypeError(‘Keyword argument not understood:‘, ‘***‘) in keras.models load_model
TypeError('Keyword argument not understood:', '***') in keras.models load_model 一、问题描述 在google colab...

终于结束了TensorFlow的安装。我不会但是我jio的要记录下来
Microsoft Windows [版本 10.0.19042.1165] (c) Microsoft Corporation。保留所有权利。 C:\Users\联想>pip install ...

OCR文字识别经典论文详解
📝 OCR文字识别技术介绍合集: 1️⃣OCR文字识别技术系列第一章:OCR文字识别技术总结(一) 2️⃣OCR文字识别技术系列第二章:OCR文字识别技术总结(二) 3️⃣OCR文字识别技术系列第三章...

关于double精度的问题-蓝桥杯2021年十二届c题
在平面直角坐标系中,两点可以确定一条直线。如果有多点在一条直线上,那么这些点中任意两点确定的直线是同一条。 给定平面上 2 × 3 个整点 { ( x , y ) ∣ 0 ≤ x < 2 , 0...

机器学习笔记–2.1文本分类
从分类算法层面来看,各类语言的文本分类技术大同小异,但从整个流程来考察,不同语言的文本处理所用到的技术还是有差别的。下面给出中文语言的文本分类技术和流程,主要包括以下几个步骤: (1)预处理:去除文本...

2021新网银行金融科技挑战赛 Baseline
基于TensorFlowTTS的新网语音合成baseline Github: https://github.com/TensorSpeech/TensorflowTTS 2021"创青春·交子杯"新网...

OpenHarmony轻量系统开发【14】使用语音控制鸿蒙小车
摘要:本文简单介绍如何使用语音控制鸿蒙小车 适合群体:适用于润和Hi3861开发板 文中所有代码仓库:https://gitee.com/qidiyun/hihope-3861-smart-home-...

electron-vue 环境搭建、创建项目
npm install -g vue-cli vue init simulatedgreg/electron-vue my-project cd my-project yarn # or npm in...

深度学习100例-卷积神经网络(VGG-16)识别海贼王草帽一伙 | 第6天
文章目录 一、前期工作 * 1. 设置GPU 2. 导入数据 3. 查看数据 二、数据预处理 * 1. 加载数据 2. 可视化数据 3. 再次检查数据 4. 配置数据集 5. 归一化 三、构建VGG-...

基于TensorFlow Lite Micro在物联网设备上玩转TinyML之离线语音唤醒
1. 案例简介 随着机器学习的发展,TinyML(微型机器学习)已在你的家里、车里、甚至口袋里工作了。什么是TinyML呢?它是属于机器学习的一个子领域,包含了算法、硬件和软件,能够基于传感器数据分析...

Tripletloss+交叉熵损失 训练 mnist例子
采用tensorflow2x 版本, 为了贴近实际使用,例子没有直接采用tensorflow提供的数据加载。 数据加载:将mnist图片存储在文件夹下,已经生成了所有样本路径的列表; import t...

钻石价格预测的ML全流程!从模型构建调优道部署应用!⛵
💡 作者:韩信子@ShowMeAI 📘 数据分析 ◉ 技能提升系列:http://www.showmeai.tech/tutorials/33 📘 AI 面试题库系列:http://www.showm...

ArUco
文章目录 一、ArUco简介 二、Marker和字典 三、步骤 * 1.创建Marker(Marker Creation) 2.检测Marker(Marker Detection) 3.姿态估计(Po...