2022-11-24人工智能118

\qquad监督学习和非监督学习的本质区别在于，数据集是否是带有"标签"的，当数据集是有标签的，则属于监督学习的范畴；当数据集没有标签，则属于非监督学习的范畴，如聚类算法就属于非监督学习的范畴。

1、k-means聚类

\qquadk-means聚类算法输入数据是一系列点，之后需要确定出聚类中心的个数，之后计算每一个数据点到每一个中心的距离，将所有数据点分配到里数据点最近的某个数据中心(Cluster Assignment)；之后将数据中心进行移动(Cluster Moving)，将每一个数据中心移动到分配给它的数据点的中心位置(所有维度的均值位置)；之后重新进行数据点的分配。重复上述过程，直到分配给每一个数据中心的数据点不再发生变化，则算法达到收敛，输出聚类结果。
\qquadk-means聚类算法的流程如下图所示：
十五、非监督学习

; 1.1 k-means聚类的优化目标

\qquad首先定义c ( i ) c^{(i)}c (i )表示将数据点x ( i ) x^{(i)}x (i )分配到哪一个数据中心(1,2,...,K)；μ k \mu_k μk 表示第k个聚类中心；则μ c ( i ) \mu_{c^{(i)}}μc (i )表示数据点x ( i ) x^{(i)}x (i )对应的数据中心。k-means聚类的目标函数如下所示：
十五、非监督学习

1.2 随机初始化

\qquad 在进行k-means聚类之前，首先选定K < m K个聚类中心，其中m m m是训练数据的样本点个数，即在m m m个样本点中随机选择K K K个作为聚类中心，令μ 1 , . . . , μ k \mu_1,...,\mu_k μ1 ,...,μk 表示随机选定的K K K个聚类中心。
\qquad为了避免k-means陷入局部最优，通常采用运行多次k-means算法，记录多次运行k-means算法中成本函数最小的结果作为最优解；通过随机初始化聚类中心的方式来使得k-means算法达到较好的效果。
十五、非监督学习

; 1.3 选择聚类中心的个数

\qquad 一种方法是使用"拐点"法则(Elbow method)，如下图所示：
十五、非监督学习
\qquad如上图左图所示，当有较为清晰的该点出现时，可以使用这种方法；但通常情况下，随着聚类中心数量的增多，成本函数会呈现平滑下降的趋势，如上图右图所示，这样就很难选择出合适的聚类中心个数。
\qquad很多时候，k-means聚类通常会产生后续的，下游的影响，所以通过聚类结果对于下游的影响也可以作为选择k-means聚类中心个数的重要依据。如服装设计行业，将服装的市场细分为3个或者5个(聚类中心个数)，划分越细致，服装的尺寸越适合顾客，但是相应的价格会越高，所以可以通过k-means权衡出将服装尺寸细分称为多少个聚类中心最为合适。

2、维度缩减-Dimension Reduction

\qquad 为了减少特征的数量，可以采用维度缩减的方法来将多维的特征缩减为更少维数的特征，如下图所示，表示将二维特征缩减为一维特征：
十五、非监督学习
\qquad下图表示将三维的特征缩减为二维的特征：

; 3、主成分分析法-Principal Component Analysis(PCA)

\qquadPCA的目标是为了对数据进行降维，将数据从高维度降到低维度。如若想将二维数据降到一维数据，需要寻找一个方向(u ( 1 ) ∈ R n u^{(1)}\in R^n u (1 )∈R n)来将所有的数据点进行投影，从而最小化投影误差(projection error)。（投影误差指的是将数据垂直投影在某个或某几个向量上，计算投影到向量的距离之和）。若想将n维数据降到k维数据，则需要找k个向量u ( 1 ) , u ( 2 ) , . . . , u ( k ) u^{(1)}, u^{(2)},...,u^{(k)}u (1 ),u (2 ),...,u (k )，之后将所有数据投影在这k维数据上，使得投影误差最小。

3.1 数据预处理

\qquad在进行主成分分析之前，由于数据的量纲不同，通常需要对数据进行预处理，预处理的手段包括feature scaling和mean normalization等。
十五、非监督学习

; 3.2 PCA流程

\qquad再将数据进行了预处理之后，首先需要计算数据X X X的协方差矩阵(Sigma)，之后计算协方差矩阵(Sigma)的特征向量s v d ( S i g m a ) svd(Sigma)s v d (S i g m a )；之后取特征向量中的前k列数据组成新的矩阵U r e d u c e Ureduce U r e d u c e；最后计算k维投影向量z = u r e d u c e ′ ∗ X z = ureduce'*X z =u r e d u c e ′∗X
十五、非监督学习

3.3 原始数据重建

\qquad使用PCA之后，还可以从压缩数据重新转化成为未压缩的数据，因为z = u r e d u c e ′ ∗ X z = ureduce'X z =u r e d u c e ′∗X，则X = u r e d u c e ∗ z X = ureducez X =u r e d u c e ∗z
十五、非监督学习

; 3.4 主成分数量 k k k 的选择

\qquad PCA应用时主成分数量k k k的选择依据为：选择一个k，使得投影均方误差(下式中的分子)/数据总方差的值不超过0.01，即使得数据的原始方差被保留99%。
十五、非监督学习

THE END

Original: https://blog.csdn.net/weixin_43160744/article/details/123763523
Author: Dragon Fly
Title: 十五、非监督学习

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

十五、非监督学习

1、k-means聚类

; 1.1 k-means聚类的优化目标

1.2 随机初始化

; 1.3 选择聚类中心的个数

2、维度缩减-Dimension Reduction

; 3、主成分分析法-Principal Component Analysis(PCA)

3.1 数据预处理

; 3.2 PCA流程

3.3 原始数据重建

; 3.4 主成分数量 k k k 的选择

THE END

猿创征文｜时间序列分析算法之平稳时间序列预测算法和自回归模型(AR)详解+Python代码实现

logistic回归模型—基于R

环境混合物总体效应：加权分位数和回归（WQS）

数学建模学习：岭回归和lasso回归

R 计算均方差MSE(mean squared error)

python数据相关性绘图-散点图正态分布图回归图等及鸢尾花数据集可视化（附Python代码）

基于Lasso回归的实证分析（Python实现代码）

目标检测中边框回归的直观理解 bbox regression

通过R语言实现平稳时间序列的建模–基础（ARMA模型）

【sklearn使用】sklearn中调用R2（回归问题评价指标）的3种方式

【项目实战】Python实现GBDT(梯度提升树)回归模型(GradientBoostingRegressor算法)项目实战

机器学习算法系列（四）- 岭回归算法（Ridge Regression Algorithm）

stata基础–回归，画散点图，异质性分析

机器学习之分类回归树（CART）

机器学习基础：用 Lasso 做特征选择

利用lasso回归建立预测模型并绘制列线图二分类结局资料的lasso回归与列线图绘制

计量经济学笔记6-Eviews操作-自相关的检验与消除（DW、LM检验与FGLS、广义差分变换）

Pytorch：全连接神经网络-MLP回归

机器学习实验——回归预测算法

基于MATLAB的随机森林（RF）回归与变量影响程度（重要性）排序

机器学习算法、Python、数据分析、学习资料 & 面试大汇总（免费送）

1、k-means聚类

; 1.1 k-means聚类的优化目标

1.2 随机初始化

; 1.3 选择聚类中心的个数

2、维度缩减-Dimension Reduction

; 3、 主成分分析法-Principal Component Analysis(PCA)

3.1 数据预处理

; 3.2 PCA流程

3.3 原始数据重建

; 3.4 主成分数量 k k k 的选择

THE END

; 3、主成分分析法-Principal Component Analysis(PCA)