data mining 聚类思维导图

人工智能79

data mining 聚类思维导图

一、划分聚类
1.K-means
经典算法,指定k为最后分裂保留的簇的个数。
①n个样本,随机选择k个样本作为初始簇的中心。
②计算每个样本距离k个簇中心的距离,把它加入到距离自己最近的簇中去。(如果相同,考虑优先级等合并规则)
③重新计算每个簇的平均值,更新为新的簇中心。
④重复②③,直到簇稳定或者到达迭代上限次数。

优点: 可以处理规模较大的数据、时间复杂度低、空间复杂度低
缺点: k值需要人为指定,对初始k个点的选择很敏感。任意得到局部最优解而不是全局最优解(基于贪心)。
对噪声和孤立点非常敏感。
不能处理球形数据。

2.PAM(K-中心点算法)
将K-means中的按照簇的平均值作为中心点替换成了位于簇最中心位置的中心点作为中心点。
簇的中心点: 每个簇中到其他点平均距离最小的点
反复地用非代表对象来代替代表对象,试图找出更好的中心点,以改进聚类的质量.

[En]

Non-representative objects are repeatedly used to replace representative objects in an attempt to find a better central point in order to improve the quality of clustering.

输入验证码查看隐藏内容

扫描二维码关注本站微信公众号 Johngo学长
或者在微信里搜索 Johngo学长
回复 svip 获取验证码
wechat Johngo学长

相关文章
人工智能

Python 自然语言处理入门

今天生成的数据中有很大一部分是非结构化的。非结构化数据包括社交媒体评论、浏览历史记录和客户反馈。您是否发现自己处于需要分析大量文本数据的情况,却不知道如何进行?Python 中的自然语言处理可以提供帮...
人工智能

CMOS图像传感器——图像传感器噪声

图像传感器噪声取决于图像传感器的制作工艺、内部结构及内部补偿技术等原因,噪声反应了图像传感器的内部特性。CMOS图像传感器基本原理见: CMOS图像传感——概述_沧海一升的博客-CSDN博客_cmos...
人工智能

python高维数组的提取

python在TensorFlow搭建的环境下,所有数据的提取和Matlab的形式一致。 由于之前很少研究高维情况,第一次遇到三维数据的提取,出现一些小困惑。 下面是自己对于这方面的理解 import...