4.1 假设检验
从对总体的假设出发用样本数据进行检验,实现对总体指标分析的过程。即,对总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布而做出相应的假设。
- 分析样本指标和总体指标之间是否存在显著差异。
对总体指数进行假设,以小概率事件不会发生为基准,运用反荒谬的思想,根据获得的样本数据,计算相应的样本统计量,得出本次抽样中是否发生小概率事件的结论。因此,我们可以对总体指数的假设做出接受或拒绝的判断。
[En]
Make an assumption on the overall index, take the small probability event will not occur as the benchmark, use the idea of anti-absurdity, according to the data of the obtained sample, calculate the corresponding sample statistics, and draw the conclusion of whether the low probability event occurs in this sampling. thus we can make a judgment of acceptance or rejection to the hypothesis of the overall index.
4.2 假设检验的分析方法
- *单个正态总体均值的假设检验
检验法
检验统计量拒绝域
检验(
已知)
–––––
检验(
未知)
- *两个正态总体均值的假设检验
检验法
检验统计量拒绝域
检验(
已知)
–––––
检验(
未知)
–––––大样本
检验(
充分大)
–––––近似
检验(
不很大)
注意:其中s w = ( m − 1 ) s x 2 + ( n − 1 ) s y 2 / c m + n − 2 s_w=\frac{(m-1)s_x^2+(n-1)s_y^2/c}{m+n-2}s w =m +n −2 (m −1 )s x 2 +(n −1 )s y 2 /c ,l = s 0 4 s x 4 m 2 ( m − 1 ) + s y 4 n 2 ( n − 1 ) l=\frac{s_0^4}{\frac{s_x^4}{m^2(m-1)}+\frac{s_y^4}{n^2(n-1)}}l =m 2 (m −1 )s x 4 +n 2 (n −1 )s y 4 s 0 4 。
- *正态总体方差的假设检验
检验法
检验统计量拒绝域
–––––
为真犯错误概率落入拒绝域犯第一类错误正确
显著性水平落入接受域正确犯第二类错误
- 又分别称为: *拒真错误、取伪错误
利用样本观测值能够做出拒绝原假设的最小显著性水平。
在显著性水平
在显著性水平
下,接受
4.3 几种 t t t 检验
1、两独立样本t t t 检验(样本服从正态分布,且相互独立)
利用来自两个群体的独立样本,我们可以推断两个群体的平均值是否存在显著差异。
[En]
Using independent samples from two populations, we can infer whether there is a significant difference in the mean value of the two populations.
2、配对样本t t t 检验(样本服从正态分布)
- 同源配对。 同质的测试对象分别接受两种不同的处理。
- 自身配对。
- 某组 同质的测试对象接受两种不同的处理
- 某组同质的测试对象接受处理前后是否存在差异,例如,某消费软件大促前后的流量对比。
4.4 数据的正态性检验
1、K − S K-S K −S 检验
- 原假设的理论分布一般是 一维连续分布(例:正态分布、均匀分布、指数分布),即H 0 H_0 H 0 为总体服从某种一维连续分布
- 统计量:Z = n m a x i ( ∣ F n ( x i − 1 ) − F ( x i ) ∣ , ∣ F n ( x i ) − F ( x i ) ∣ ) Z=\sqrt n\underset {i}{max}(|F_n(x_i-1)-F(x_i)|,|F_n(x_i)-F(x_i)|)Z =n i ma x (∣F n (x i −1 )−F (x i )∣,∣F n (x i )−F (x i )∣)
2、S − W S-W S −W 检验
- 原假设是总体服从正态分布
- 顺序统计量W = [ ∑ i = 1 [ n / 2 ] a i ( X ( n + 1 − i ) − X ( i ) ) ] 2 ∑ i = 1 n ( X i − X ‾ ) 2 W=\frac{[\sum_{i=1}^{[n/2]}a_i(X_{(n+1-i)}-X_{(i)})]^2}{\sum_{i=1} ^n(X_i-\overline X)^2}W =∑i =1 n (X i −X )2 [∑i =1 [n /2 ]a i (X (n +1 −i )−X (i ))]2
注意: 样本量小于2000时,S − W S-W S −W检验结果精度较高;样本量大于2000时,K − S K-S K −S检验较适用。
用于比较多个总体均值的问题。分析的数据中有一 分类变量,以及 连续变量。
5.1 相关概念
- 因子:所检验的对象(分类变量)
- 水平:因子的不同表现(连续变量)
- 若不同水平抽出的样本容量相同,则称为均衡数据;若不同,则称为非均衡数据。
基本假定:
1.在同一水平下,观测指标的数据均 来自正态总体
2.在不同水平下,数据的 方差相等
3.数据之间 相互独立
5.2 单因素方差分析
检验某一个分类变量得到的多个分类总体的均值是否相等,即 检验几个具有相同方差的正态总体均值是否相等的问题。
-
原理:在观测变量总离差平方和中,如果 组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释, 即控制变量给观测变量带来了显著影响;反之,则说明观测变量值的变动 是由随机变量因素引起的。
-
总离差平方和S S T SST S S T:反映全部数据误差的平方和。S S T = ∑ i = 1 m ∑ j = 1 n i ( x i j − x ‾ ) 2 SST=\sum_{i=1}^m\sum_{j=1}^{n_i}(x_{ij}-\overline x)^2 S S T =i =1 ∑m j =1 ∑n i (x i j −x )2
其中x ‾ \overline x x表示所有x i j x_{ij}x i j 的总平均值。 - 组间离差平方和S S M SSM S S M:反映了每组数据均值和总平均值之间的误差,包括系统误差,即 由于因子水平不同引起的以及随机误差S S E SSE S S E。S S M = ∑ i = 1 m ∑ j = 1 n i ( x ‾ i − x ‾ ) 2 = ∑ i = 1 m n i ( x ‾ i − x ‾ ) 2 SSM=\sum_{i=1}^m\sum_{j=1}^{n_i}(\overline x_i-\overline x)^2=\sum_{i=1}^mn_i(\overline x_i-\overline x)^2 S S M =i =1 ∑m j =1 ∑n i (x i −x )2 =i =1 ∑m n i (x i −x )2
其中x ‾ i \overline x_i x i 表示所有第i i i组数据的组内平均值。 - 组内离差平方和S S E SSE S S E:反映了组内数据和组内平均的随机误差,是 由水平之外的其他原因引起的。S S E = ∑ i = 1 m ∑ j = 1 n i ( x i j − x ‾ i ) 2 SSE=\sum_{i=1}^m\sum_{j=1}^{n_i}(x_{ij}-\overline x_i)^2 S S E =i =1 ∑m j =1 ∑n i (x i j −x i )2
- 若因素的不同水平对因变量没有影响,那么组间误差中应只包含随机误差,而没有系统误差。故统计量的构造如下:F = S S M A / ( m − 1 ) S S E / ( n − m ) ∼ F ( m − 1 , n − m ) F=\frac{SSM_A/(m-1)}{SSE/(n-m)}\sim F(m-1,n-m)F =S S E /(n −m )S S M A /(m −1 )∼F (m −1 ,n −m )
H 0 H_0 H 0 : 无差异 v s vs v s H 1 H_1 H 1 :有显著差异
- 正态性检验
- 多重比较检验:了解哪个水平明显区别于其它水平
- 先验对比检验:更精确地掌握各水平之间均值的差异程度
- 趋势检验:把握控制变量不同水平对观测变量总体作用的程度
- 假定方差齐性时,L S D LSD L S D 方法,又称为最小显著性差异法。使用t t t检验执行组均值之间的所有成对比较; B o n f e r r o n i Bonferroni B o n f e r r o n i 方法。
- 未假定方差齐性时,T a m h a n e ′ s Tamhane's T a m h a n e ′s T 2 T2 T 2方法,基于t t t检验的保守成对比较。但一般 建议使用非参数估计的方法进行检验
- 方差齐性检验:使用L e v e n e Levene L e v e n e统计量以检验组方差是否相等
- 当方差不相等时,统计量B r o w n − F o r s y t h e Brown-Forsythe B r o w n −F o r s y t h e以及统计量W e l c h Welch W e l c h优于F F F统计量
6.1 变量间的关系
变量之间的关系可分为两类: 确定性关系(函数关系)和 非确定性关系(相关关系)。
- 相关关系:当给定一个变量值后,另一个变量值可以在一定范围内变化。
6.2 相关分析
- 相关分析可以在影响变量的众多变量中确定哪些变量显著,哪些变量不显著,然后使用其他数据分析方法(回归分析、因子分析等)进一步分析对彼此有显著影响的变量。
- 相关分析分三步:1、 绘制两个变量的散点图;2、 计算变量之间的相关系数;3、 相关系数的显著性检验。
散点图可以帮助我们 了解变量之间是否相关及相关程度。
- 相关系数:反映两个变量之间的相关程度,公式如下:ρ X Y = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y \rho_{XY}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X\sigma_Y}ρX Y =σX σY c o v (X ,Y )=σX σY E [(X −μX )(Y −μY )]
- 样本相关系数,记为r r r。
- 常用的相关系数有3种: 皮尔逊相关系数、斯皮尔曼相关系数和肯德尔相关系数。
1、 皮尔逊相关系数 - 计算公式:r = n Σ x y − Σ x Σ y n Σ x 2 − ( Σ x ) 2 n Σ y 2 − ( Σ y ) 2 r=\frac{n \Sigma xy-\Sigma x \Sigma y}{\sqrt{n \Sigma x^2-(\Sigma x)^2} \sqrt{n\Sigma y^2-(\Sigma y)^2}}r =n Σx 2 −(Σx )2 n Σy 2 −(Σy )2 n Σx y −Σx Σy
- 皮尔逊相关系数适用于:(1)两个变量之间是 线性关系,都是连续数据;(2)两个变量的总体是 正态分布,或接近正态的单峰分布;(3)两个变量的观测值是成对的,每对观测值之间 相互独立。
- 若数据分布是多峰的,且 多峰的情况很明显,则不适合进行皮尔逊线性相关分析。
- 系数解释:
- ∣ r ∣ ≥ 0.8 |r| \ge0.8 ∣r ∣≥0 .8,可视为两个变量之间 高度相关
- 0.5 ≤ ∣ r ∣ < 0.8 0.5 \le|r|,可视为两个变量之间 中度相关
- 0.3 ≤ ∣ r ∣ < 0.5 0.3 \le|r|,可视为两个变量之间 低度相关
- ∣ r ∣ < 0.3 |r|,可视为两个变量之间 不相关
2、 斯皮尔曼相关系数 - 依据两列成对等级的各对等级数之差来进行计算,计算公式为:ρ = 1 − 6 ∑ i = 1 N d i 2 N ( N 2 − 1 ) \rho =1-\frac{6\sum_{i=1}^Nd_i^2}{N(N^2-1)}ρ=1 −N (N 2 −1 )6 ∑i =1 N d i 2 适用于反映 序列变量的相关。
- 适用情形:观测者是成对的。
3、 肯德尔相关系数 - 用于测量两个随机变量相关性的统计值,计算公式之一:T a u − a = C − D 1 / 2 N ( N − 1 ) Tau-a=\frac{C-D}{1/2N(N-1)}T a u −a =1 /2 N (N −1 )C −D 其中C C C表示X X X与Y Y Y中拥有一致性的元素对数,D D D表示X X X与Y Y Y中拥有不一致性的元素对数。
-
适用情形:集合X X X与Y Y Y中 均不存在相同元素的情况。
-
原假设:H 0 H_0 H 0 :ρ = 0 \rho=0 ρ=0,即不显著。
- 皮尔逊相关系数的检验统计量为t = r n − 2 1 − r 2 ∼ t ( n − 2 ) t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t(n-2)t =1 −r 2 r n −2 ∼t (n −2 )
6.3 一元线性回归分析
建立变量之间的 定量关系。
- 建立一元回归分析模型,需要进行以下假设:
- 正态性假设,总体误差项服从正态分布
- 零均值性假设,总体各误差项的条件平均值为零(若不满足,则 不再是无偏估计)
- 等方差性假设,总体各误差项的条件方差为一个常数(若不满足,则 不再是有效估计)
- 独立性假设,误差项之间相互独立(若不满足,则 不再是有效估计)
- 根据上述假设,建立一元线性回归模型:y = β 0 + β 1 x + ϵ y=\beta_0+\beta_1x+\epsilon y =β0 +β1 x +ϵ
-
使偏差的平方和达到最小,即要求Σ ( y i − y ^ i ) 2 达 到 最 小 。 \Sigma(y_i-\hat y_i)^2达到最小。Σ(y i −y ^i )2 达到最小。通过公式:β ^ 1 = n ∑ i = 1 n x i y i − ( ∑ i = 1 n x i ) ( ∑ i = 1 n y i ) n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 \hat\beta_1=\frac{n\sum_{i=1}^nx_iy_i-(\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}{n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2}β^1 =n ∑i =1 n x i 2 −(∑i =1 n x i )2 n ∑i =1 n x i y i −(∑i =1 n x i )(∑i =1 n y i )β ^ 0 = y ‾ − β ^ 1 x ‾ \hat\beta_0=\overline y-\hat\beta_1\overline x β^0 =y −β^1 x可进行求解。
-
原假设:H 0 H_0 H 0 :β 1 = 0 \beta_1=0 β1 =0,即不显著
- S S T SST S S T表示总离差平方和,即观测值与总平均值之间的误差:S S T = ∑ i = 1 n ( y i − y ‾ ) 2 SST=\sum_{i=1}^n(y_i-\overline y)^2 S S T =i =1 ∑n (y i −y )2 S S R SSR S S R表示回归平方和,即预测值与总平均值之间的误差S S R = ∑ i = 1 n ( y ^ i − y ‾ ) 2 SSR=\sum_{i=1}^n(\hat y_i-\overline y)^2 S S R =i =1 ∑n (y ^i −y )2 S S E SSE S S E表示随机误差,即观测值与预测值之间的误差:S S E = ∑ i = 1 n ( y i − y ^ i ) 2 SSE=\sum_{i=1}^n(y_i-\hat y_i)^2 S S E =i =1 ∑n (y i −y ^i )2
- 统计量F F F,其公式为:F = S S R / 1 S S E / ( n − 2 ) = Σ ( y ^ − y ‾ ) 2 / 1 Σ ( y − y ^ ) 2 / ( n − 2 ) ∼ F ( 1 , n − 2 ) F=\frac{SSR/1}{SSE/(n-2)}=\frac{\Sigma(\hat y-\overline y)^2/1}{\Sigma(y-\hat y)^2/(n-2)}\sim F(1,n-2)F =S S E /(n −2 )S S R /1 =Σ(y −y ^)2 /(n −2 )Σ(y ^−y )2 /1 ∼F (1 ,n −2 )
1、对常数项的检验
- 原假设:H 0 H_0 H 0 :β 0 = 0 \beta_0=0 β0 =0,即常数项为0
- t t t检验统计量:t = β ^ 0 σ Σ x i 2 Σ ( x i − x ‾ ) 2 ∼ t ( n − 2 ) t=\frac{\hat\beta_0}{\frac{\sigma\sqrt{\Sigma x_i^2}}{\sqrt{\Sigma(x_i-\overline x)^2}}}\sim t(n-2)t =Σ(x i −x )2 σΣx i 2 β^0 ∼t (n −2 )其中,σ = S y = Σ ( y i − y ^ i ) 2 n − 2 \sigma=S_y=\sqrt{\frac{\Sigma(y_i-\hat y_i)^2}{n-2}}σ=S y =n −2 Σ(y i −y ^i )2
2、对系数的检验 - 原假设:H 0 H_0 H 0 :β 1 = 0 \beta_1=0 β1 =0,即系数为0
- t t t检验统计量:t = β ^ 1 σ Σ ( x i − x ‾ ) 2 ∼ t ( n − 2 ) t=\frac{\hat\beta_1}{\frac{\sigma}{\sqrt{\Sigma(x_i-\overline x)^2}}}\sim t(n-2)t =Σ(x i −x )2 σβ^1 ∼t (n −2 )其中,σ = S y = Σ ( y i − y ^ i ) 2 n − 2 \sigma=S_y=\sqrt{\frac{\Sigma(y_i-\hat y_i)^2}{n-2}}σ=S y =n −2 Σ(y i −y ^i )2
3、残差分析 - e i = y i − y ^ i = y i − ( β 0 + β 1 x ) e_i=y_i-\hat y_i=y_i-(\beta_0+\beta_1x)e i =y i −y ^i =y i −(β0 +β1 x )
- 残差分析包括以下内容:残差服从正态分布,其平均值等于0;残差取值与X X X的取值无关;残差的自相关性;残差方差相等。
- 残差图,可对残差均值和方差齐性进行检验。若残差均值为0,则残差图的点应该在纵坐标为0的区域中随机散落。
- D − W D-W D −W 检验,检验残差的自相关。
- 检验统计量:D W = ∑ t = 2 n ( e t − e t − 1 ) 2 ∑ t = 2 n e t 2 ≈ 2 ( 1 − ρ ) DW=\frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=2}^ne_t^2}\approx2(1-\rho)D W =∑t =2 n e t 2 ∑t =2 n (e t −e t −1 )2 ≈2 (1 −ρ)
-
D − W D-W D −W值为2表示无自相关,为0 ∼ 2 0\sim2 0 ∼2说明存在正自相关,为2 ∼ 4 2\sim4 2 ∼4说明存在负自相关。一般, D − W D-W D −W 值为1.5 ∼ 2.5 1.5\sim2.5 1 .5 ∼2 .5 说明无自相关现象。
-
回归直线的拟合优度是指回归直线对观测者的拟合程度
- 度量拟合优度的统计量: 可决系数R 2 R^2 R 2,计算公式为:R 2 = S S R S S T = ∑ i = 1 n ( y ^ i − y ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 R^2=\frac{SSR}{SST}=\frac{\sum_{i=1}^n(\hat y_i-\overline y)^2}{\sum_{i=1}^n(y_i-\overline y)^2}R 2 =S S T S S R =∑i =1 n (y i −y )2 ∑i =1 n (y ^i −y )2
- R 2 R^2 R 2的值 越接近1,说明回归直线对观测者的 拟合程度越好。
参考:“从零开始前进!”数据分析的统计学基础,概率论和数理统计
[En]
Reference: "advance from zero!" Statistical basis of data Analysis, course of probability Theory and Mathematical Statistics
Original: https://blog.csdn.net/L_earning_/article/details/123447115
Author: L_earning_
Title: 数据分析的统计基础(下)
相关阅读
Title: 安装Anaconda/Python3.9/Tensorflow
Title: 安装Anaconda/Python3.9/Tensorflow
安装Anaconda/Python3.9/Tensorflow
· 安装Anaconda
官网安装,开梯子
Download即可。打开下载好的安装包,按照提示,一路【Next】
选择安装路径
官方建议不要自动配置环境变量,无论是自动还是手动配置。一般情况下,默认选中以下选项(我刚安装在这里,所以无法选中。)
[En]
It is not officially recommended to configure environment variables automatically, either automatically or manually. Generally, the following option is checked by default (I have just installed it here, so I can't check it. )
点击【Install】,等待安装完成。继续按提示操作至安装界面结束。
; · 配置Anaconda环境变量
添加如下Path环境变量
cmd查看Anaconda版本
证明Anaconda已经装好。
· 安装Tensorflow
开始菜单打开Anaconda Prompt
配置清华镜像源,从这里开始要关掉代理了。
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
Anaconda创建Python环境,可在官网查看Tensorflow支持的Python版本:
我的Anaconda给我装了Python3.9,于是
conda create -n tensorflow python=3.9
询问[Y/N]时选择Y。完成时给出如下提示
查看目前有哪些环境,通过
conda env list
或
conda info --env
可以看到tensorflow环境已经创建。星号为当前所在环境(基础环境base)。通过 activate tensorflow
进入tensorflow环境:
开始实际安装Tensorflow。查看当前可使用的Tensorflow版本,通过
conda search --full --name tensorflow
从1.1.0到2.6.0都有。可指定版本安装,这里安装默认版本
pip install --upgrade --ignore-installed tensorflow
无报错结束应该是装好了。打开Python环境,导入tensorflow包进行测试
确定tensorflow已经装好(这里应该是Cuda版本低了,以后再调)。 tf.__version__
查看版本为2.7。
最后如果想退出tensorflow环境
conda deactivate
同时,conda控制台是默认打开base环境的,如果想管理这一设置
conda config --set auto_activate_base false / true
参考博客如下
https://blog.csdn.net/zaxcac/article/details/122422684
https://blog.csdn.net/weixin_42412254/article/details/107569830
https://blog.csdn.net/woniuyc/article/details/121984874
https://blog.csdn.net/weixin_44717083/article/details/121555146
https://blog.csdn.net/java_pythons/article/details/114875018
https://blog.csdn.net/qq_38463737/article/details/109492394
https://blog.csdn.net/qq_37924224/article/details/117712061Original: https://blog.csdn.net/qq_45755158/article/details/122644140
Author: Miska_Muska
Title: 安装Anaconda/Python3.9/TensorflowOriginal: https://blog.csdn.net/qq_45755158/article/details/122644140
Author: Miska_Muska
Title: 安装Anaconda/Python3.9/Tensorflow

gnome shell 扩展命令行开启和关闭

计算机视觉数据集清单-附赠tensorflow模型训练和使用教程

Jetson tx2 安装jetpack_3.3手动安装cuda9.0,cudnn7.1

conda 查看现有虚拟环境 – 删除现有虚拟环境

Tensorflow2.0学习-保存和加载模型 (五)

keras添加可训练的变量

机器学习算法(十二):聚类

2.基于深度学习的轴承故障诊断–Anaconda安装、Pycharm安装、Tensorflow环境搭建

pcl实现三次B样条曲线拟合不规则圆并计算所得拟合曲线长度

基于神经网络的实战演练(一)-启动,运行与解读TensorFlow

微信小程序录音 第一篇 (基于微信小程序及百度AI的 人员语音识别转文字显示小程序)

NLP 实战(12): AI小组2022半年小结

从DDPM到DDIM:深入解读《Denoising Diffusion Implicit Models》

5G C-V2X技术介绍
