聚类分析详解
sklearn—聚类分析详解(聚类分析的分类;常用算法;各种距离:欧氏距离、马氏距离、闵式距离、曼哈顿距离、卡方距离、二值变量距离、余弦相似度、皮尔森相关系数、最远(近)距离、重心距离)
这一章总结的很痛苦,打公式费时费力。
文章目录
- 1.聚类分析
- 1.1聚类方法
- 1.2 常见聚类算法:
- 1.3 cluster提供的聚类算法及其使用范围
- 2. 各种距离
- 2.1 连续性变量的距离
- 2.1.1 欧氏距离
- 2.1.2 曼哈顿距离
- 2.1.3 切比雪夫距离
- 2.1.4 闵可夫斯基距离
- 2.1.5 标准欧式距离
- 2.1.6 马氏距离
- 2.1.7 补充:距离判别法,同样用到马氏距离
- 2.2 离散型变量距离
- 2.2.1 卡方距离
- 2.2.2 Phi距离
- 2.2.3 二值变量距离
- 2.2.4 Jaccard系数
- 2.3基于相似系数的相似性度量(用相似度表示距离)
- 2.3.1 余弦相似度
- 2.3.2 汉明距离
- 2.3.3 Jaccard相似系数
- 2.3.4 皮尔森相关系数
- 2.4 个体与类以及类间的亲疏关系度量
- 2.4.1 最远(近)距离
- 2.4.2 组间平均链锁距离
- 2.4.3 组内平均链锁距离
- 2.4.4 重心距离
- 2.4.5 离差平方和距离(Ward方法)
- 3. 常用的聚类目标函数
- 3.1 连续属性的SSE
- 3.2 文档数据的SSE计算公式:
- 3.3 簇$E_i$的聚类中心$e_i$计算公式:
1.聚类分析
1.1聚类方法
类别 | 包括的主要算法 |
---|---|
划分(分裂)方法 | K-Means算法(均值)、K-medoids算法(中心点)、K-modes算法(众数)、k-prototypes算法、CLARANS(基于选择) |
层次分析 | BIRCH算法(平衡迭代规约)、CURE算法(点聚类)、CHAMELEON(动态模型) |
基于密度 | DBSCAN(基于高密度连接区域)、DENCLUE(密度分布函数)、OPTICS(对象排序识别) |
基于网格 | STING(统计信息网络)、CLIOUE(聚类高维空间)、WAVE-CLUSTER(小波变换) |
基于模型 | 统计学方法、神经网络 |
此外还有,最优分割法(有序样本聚类)、模糊聚类法(应用模糊集理论)、图论聚类…
这个水太深了,看了半天是不是发现自己就只会k均值和birch系统聚类啊…真真真的学无止境
1.2 常见聚类算法:
算法名称 | 描述 |
---|---|
K-Means | K均值算法是一种快速聚类算法,在最小化误差函数的基础上将数据划分为预定的K簇。数据量大的时候也会比较方便和快速。 |
K-中心点 | K均值对孤立点比较敏感,因此这算一个改进算法,不是选择簇中对象的平均值作为簇中心,而是选择簇中离平均值最近的对象作为簇中心。计算量原大于K均值,因此适合小样本数据。 |
K-众数 | 顾名思义,不是采用均值作为中心,而是众数。用来处理分类型数据,统计频率即可,弥补K均值只能做数值计算的不足。也是最K均值的改进算法之一。 |
K-Protype | K均值和K众数的结合,分别用于数值型数据和分类型数据。也是最K均值的改进算法之一。 |
CLARA | clustering large application,大型应用聚类,基于抽样的方法,采用数据集的多个随机样本,然后使用PAM方法计算各个样本中的最佳中心点。也是最K均值的改进算法之一。 |
CLARANS | clustering large application basedupon randomized search,基于随机搜索的聚类大型应用。在数据中随机选取K个对象当中心,随机选择一个当前中心点和一个不是当前中心点进行替换,看是否能改善绝对误差,随机搜索L次,组成局部最优解集合。然后重复该过程M次,返回最佳局部最优解。也是最K均值的改进算法之一。 |
系统聚类 | 常用的就是那个birch。由高到低成树形结构。适用于小样本数据。 |
参考博客https://blog.csdn.net/wojiaosusu/article/details/56960103
1.3 cluster提供的聚类算法及其使用范围
函数名称 | 参数 | 范围 | 距离度量 |
---|---|---|---|
K-means | 簇数 | 大样本、聚类数目中等 | 点之间的距离公式 |
spectral clastering | 簇数 | 样本数中等、聚类数目小 | 图距离 |
ward hierarchical clustering | 簇数 | 大样本、聚类数目大 | 点之间的距离 |
agglomerative clustering | 簇数、链接类型、距离 | 大样本、聚类数目大 | 任意成对点线图之间的距离 |
DBSCAN | 半径大小、最低成员数 | 样本数中等、聚类数目中等 | 最近点之间的距离 |
birch | 分支因子、阈值、可选全局集群 | 大样本、聚类数目大 | 点之间的欧式距离 |
2. 各种距离
参考书目:王宏志,大数据分析原理与实践[M],北京:机器工业出版社,2017.
2.1 连续性变量的距离
2.1.1 欧氏距离
两个n维向量 : a ⃗ ( x 11 , x 12 , ⋅ ⋅ ⋅ , x 1 n ) \vec{a}\ (x_{11}, \ x_{12}, ···,\ x_{1n}) a