数据分析必备的统计学知识(一)

人工智能41

在数据分析师的基本技能栈中,无论是在简历的技能描述上,还是在实际面试过程中,除了熟悉业务、掌握业务分析思维和工具外,还有一个尤为重要的知识点,那就是统计学。统计学是一门必备的基础知识。

[En]

In the essential skills stack of data analysts, in addition to being familiar with the business and mastering business analysis thinking and tools, there is also a particularly important knowledge point, that is, statistics, whether in the skill description of the resume or in the actual interview process. Statistics is a necessary basic knowledge.

为什么统计数据对数据分析师如此重要?事实上,答案是显而易见的,数据分析的价值在于通过数据洞察业务背后的信息,从而避免之前的主观误判,即一拍头、两拍胸、三拍屁股,都是用数据说话的。数据怎么会说话?我们如何才能计算出数据呢?我们怎么知道数据是好是坏呢?有多好,有多坏?当两组数据呈现在你面前时,你如何判断这两组数据之间是否存在显著差异?要回答这些问题,你必须用统计知识,而不是相信自己的眼睛,因为眼睛有时会撒谎,你看到的“好”并不一定是好的,你看到的“没有区别”并不意味着没有区别。

[En]

Why is statistics so important to data analysts? In fact, the answer is obvious, the value of data analysis is to gain insight into the information behind the business through data, so as to avoid the previous subjective misjudgment of "one pat on the head, two pat on the chest, three pat on the ass", and all speak with data. How can the data speak? how can we figure out a data? how can we know whether the data is good or bad? How good and how bad? When two sets of data are presented to you, how can you tell if there is a significant difference between the two sets of data? To answer these questions, you must use the knowledge of statistics instead of trusting your eyes, because the eyes sometimes lie, the "good" you see is not necessarily good, and the "no difference" you see does not mean there is no difference.

但很多入门级的数据分析师在学习统计学时(包括我自己)都很头疼,因为统计本子上满是晦涩难懂的公式,常人看不懂。其实,对于大多数数据分析师来说,我们并不需要掌握得那么全面深入,我们只需要掌握一些知识点,理论不懂,但知道在什么场景下使用,你就会慢慢明白了!

[En]

But many entry-level data analysts have a headache when learning statistics (including me), because statistics books are full of obscure formulas that can not be understood by ordinary people. In fact, for most data analysts, we do not need to master so comprehensive and in-depth, we only need to master some knowledge points, the theory does not understand, but know in what scenarios to use, you will slowly understand!

所以为了让大家更容易学会掌握统计学的基础知识,这里我们梳理了一些数据分析中最常见的统计学基础知识,并尝试用通俗易懂的形式进行讲解。这样,无论是在面试中还是在以后的工作中,你都可以运用统计学的知识!

[En]

So in order to make it easier for you to learn to master the basic knowledge of statistics, here we sort out some of the most common basic knowledge of statistics in data analysis, and try to explain them in the form of simple vernacular. In this way, no matter in the interview or in the future work, you can use the knowledge of statistics!

数据分析必备的统计学知识(一)

; 02 数据分析中的统计学

Q1、什么是辛普森悖论?为什么会出现?

细分的结果与整体的结果相反,这就是我们通常所说的辛普森悖论。辛普森悖论的产生主要是由于两组样本抽样的不平衡和不合理。在正确的实验实现中,除了被测变量外,其他可能影响结果的变量的比例应该是相同的,这就要求对流量进行统一合理的分割。例如:

[En]

The result of subdivision is contrary to that of the whole, which is what we often call the Simpson paradox. The Simpson paradox is mainly due to the unbalanced and unreasonable sampling of the two groups of samples. In the correct experimental implementation, except for the tested variables, the proportion of other variables that may affect the results should be the same, which requires a uniform and reasonable segmentation of the traffic. For example:

如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。
现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。
虽然男孩和女孩的点击率都有所增加,但点击率较高的女孩所占比例太小,无法提振整体点击率。

[En]

Although the click-through rate of both boys and girls has increased, the proportion of girls with higher click-through rate is too small to boost the overall click-through rate.

Q2、协方差与相关系数的区别和联系

协方差:
协方差表示两个变量的总体误差,不同于只表示一个变量的误差的方差。如果两个变量的变化趋势相同,即其中一个大于其期望值,另一个也大于其期望值,则两个变量之间的协方差为正。如果两个变量的变化趋势相反,即一个大于其期望值,另一个小于其期望值,则两个变量之间的协方差为负值。

[En]

Covariance represents the overall error of two variables, which is different from the variance that represents the error of only one variable. If the change trend of the two variables is the same, that is, if one of them is greater than its expected value and the other is also greater than its expected value, then the covariance between the two variables is positive. If the change trend of two variables is opposite, that is, one of them is greater than its expected value and the other is less than its expected value, then the covariance between the two variables is negative.

相关系数:
研究变量之间线性相关程度的量,取值范围是[-1,1]。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

Q3、AB测试统计显著但实际不显著是什么原因?

这个可能的原因是我们在AB测试当中所选取的样本量过大,导致和总体数据量差异很小,这样的话即使我们发现一个细微的差别,它在统计上来说是显著的,在实际的案例当中可能会变得不显著了。
举个栗子,对应到我们的互联网产品实践当中,我们做了一个改动,APP的启动时间的优化了0.001秒,这个数字可能在统计学上对应的P值很小,也就是说统计学上是显著的,但是在实际中用户0.01秒的差异是感知不出来的。那么这样一个显著的统计差别,其实对我们来说是没有太大的实际意义的。所以统计学上的显著并不意味着实际效果的显著。

Q4、怎么理解中心极限定理?

中心极限定理定义:
(1)任何一个样本的平均值将会约等于其所在总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。

Q5、怎么给小孩子讲解正态分布?

拿出小朋友班级的成绩表,每隔2分统计一下人数(因为小学一年级大家成绩很接近),画出钟形。然后说这就是正态分布,大多数的人都集中在中间,只有少数特别好和不够好,拿出隔壁班的成绩表,让小朋友自己画画看,发现也是这样的现象,然后拿出班级的身高表,发现也是这个样子的。
大多数人没有太大差别,只有少数人很好和不够好,这是生活中的普遍现象,这是正态分布。

[En]

There is not much difference between most people, only a few people are very good and not good enough, this is a common phenomenon in life, this is normal distribution.

Q6、什么是聚类?聚类算法有哪几种?选择一种详细介绍

(1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类(俗话说人以类聚,物以群分)。
形式:聚类是检查一组点并根据一定的距离度量将它们聚为多个“簇”的过程。聚类的目的是使同一聚类中的点之间的距离变小,而不同聚类中的点之间的距离变大。

[En]

Formal: clustering is the process of examining a set of points and clustering them into multiple "clusters" according to a certain distance measure. The goal of clustering is to make the distance between points in the same cluster shorter, while the distance between points in different clusters is larger.

(2)聚类方法主要有:
a. 层次聚类
层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。。具体又可分为"自底向上"和"自顶向下"两种方案。
b. 划分聚类:(经典算法为kmeans)
划分法(parTITIoning methods),给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类。
c. 密度聚类
基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现"类圆形"的聚类的缺点。
经典算法:DBSCAN:DBSCAN算法是一种典型的基于密度的聚类算法,该算法采用空间索引技术来搜索对象的邻域,引入了"核心对象"和"密度可达"等概念,从核心对象出发,把所有密度可达的对象组成一个簇。
d. 网格聚类
基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。
经典算法:STING:利用网格单元保存数据统计信息,从而实现多分辨率的聚类。
(3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。

Q7、线性回归和逻辑回归的区别是什么?

线性回归针对的目标变量是区间型的, 逻辑回归针对的目标变量是类别型的,
线性回归模型的目标变量和自变量之间的关系假设是线性相关的 ,逻辑回归模型中的目标变量和自变量是非线性的。
线性回归中通常会用假设,对应于自变量x的某个值,目标变量y的观察值是服从正太分布的。逻辑回归中目标变量y是服从二项分布0和1或者多项分布的
逻辑回归中不存在线性回归中常见的残差。
在参数估计中,线性回归采用最小二乘法,逻辑回归采用最大似然法。

[En]

In the parameter estimation, the least square method is used in linear regression and the maximum likelihood method is used in logical regression.

Q8、为什么说朴素贝叶斯是"朴素"的?

朴素贝叶斯是一种简单但功能强大的预测建模算法。它被称为朴素贝叶斯,因为它假设每个输入变量都是独立的。这是一个强硬的假设,实际情况并不一定,但这项技术对于大多数复杂的问题仍然非常有效。

[En]

Naive Bayes is a simple but powerful predictive modeling algorithm. It is called naive Bayesian because it assumes that each input variable is independent. This is a tough assumption, the actual situation is not necessarily, but this technology is still very effective for most complex problems.

Q9、K-Means 和 KNN 的区别是什么?

首先,这两个算法解决的是数据挖掘中的两类问题。
K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

Q10、逻辑回归和线性回归的区别?

线性回归要求因变量必须是连续性数据变量;逻辑回归要求因变量必须是分类变量,二分类或者多分类的;比如要分析性别、年龄、身高、饮食习惯对于体重的影响,如果这个体重是属于实际的重量,是连续性的数据变量,这个时候就用线性回归来做;如果将体重分类,分成了高、中、低这三种体重类型作为因变量,则采用logistic回归。两者的区别还体现在以下方面:
一、性质不同
1、逻辑回归:是一种广义的线性回归分析模型。
2、线性回归:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
二、应用不同
1、逻辑回归:常用于数据挖掘,疾病自动诊断,经济预测等领域。
2、线性回归:常运用于数学、金融、趋势线、经济学等领域。

以上就是【数分面试宝典】系列—统计学基础知识第1篇文章的内容,部分历史文章请回翻,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和收藏哈~

更多优质文章可翻看共粽号:【数据分析星球】

Original: https://blog.csdn.net/licent2011/article/details/122567192
Author: 数据分析星球
Title: 数据分析必备的统计学知识(一)

相关文章
搜索排序算法 人工智能

搜索排序算法

排序模型LTR(L2R,learning to rank) Pointwise:对排序列表中的每一项,直接学习一个值,比如可以是预估点击率(Predict CTR,pCTR),然后按照预估值从大到小排...
解决No module named numpy问题 人工智能

解决No module named numpy问题

目录 前沿 解决 解决方法1: 方法2:(强行安装更新更高的版本) 前沿 最近开始学习python了,由于要简单处理一下图片,奈何能C++力太差,openCV上手有点难,想学习一下py简单的处理一下图...
R3Live系列学习(四)R2Live源码阅读(2) 人工智能

R3Live系列学习(四)R2Live源码阅读(2)

(万字长文预警) 这段时间换了部门,有许多要交接的事情要忙,并且设计开发了一个大型的视觉地图养成系统,非常有意思乃至于废寝忘食,所以文章鸽了很久,这一篇克服拖延症,将r2live的阅读写完。 不得不说...
86 R k-means,层次,EM聚类介绍 人工智能

86 R k-means,层次,EM聚类介绍

R k-means,层次,EM聚类 1什么是客户分群 * 什么是分群? 为什么要分群? 2 聚类分析方法论 * 客户分群的算法 3 样本间距离定义 4 层次聚类分析方法论 * 层次聚类概述 层次聚类的...
Lyra编码器基础环境搭建 人工智能

Lyra编码器基础环境搭建

Lyra介绍 Google最近开源了一种语音压缩的新型超低比特率编解码器,这种编码器的最大特点是基于机器学习原理,能够使用最少的数据来重建语音,这是和传统AAC和Opus编码原理的本质区别,这种基于机...
卷积层TSNE可视化 人工智能

卷积层TSNE可视化

很多小伙伴经常问,怎么把卷积层的输出提取出来,然后画曲线、可视化、连接到其他网络等等问题,由于本人使用的是基于keras和tensorflow框架的Spyder软件编写的代码,因此对别的软件怎么输出参...