这一章总结的很痛苦,打公式费时费力。

 

  • 1.聚类分析
    • 1.1聚类方法
    • 1.2 常见聚类算法:
    • 1.3 cluster提供的聚类算法及其使用范围
  • 2. 各种距离
    • 2.1 连续性变量的距离
      • 2.1.1 欧氏距离
      • 2.1.2 曼哈顿距离
      • 2.1.3 切比雪夫距离
      • 2.1.4 闵可夫斯基距离
      • 2.1.5 标准欧式距离
      • 2.1.6 马氏距离
      • 2.1.7 补充:距离判别法,同样用到马氏距离
    • 2.2 离散型变量距离
      • 2.2.1 卡方距离
      • 2.2.2 Phi距离
      • 2.2.3 二值变量距离
      • 2.2.4 Jaccard系数
    • 2.3基于相似系数的相似性度量(用相似度表示距离)
      • 2.3.1 余弦相似度
      • 2.3.2 汉明距离
      • 2.3.3 Jaccard相似系数
      • 2.3.4 皮尔森相关系数
    • 2.4 个体与类以及类间的亲疏关系度量
      • 2.4.1 最远(近)距离
      • 2.4.2 组间平均链锁距离
      • 2.4.3 组内平均链锁距离
      • 2.4.4 重心距离
      • 2.4.5 离差平方和距离(Ward方法)
  • 3. 常用的聚类目标函数
    • 3.1 连续属性的SSE
    • 3.2 文档数据的SSE计算公式:
    • 3.3 簇$E_i$的聚类中心$e_i$计算公式:

 

类别 包括的主要算法
划分(分裂)方法 K-Means算法(均值)、K-medoids算法(中心点)、K-modes算法(众数)、k-prototypes算法、CLARANS(基于选择)
层次分析 BIRCH算法(平衡迭代规约)、CURE算法(点聚类)、CHAMELEON(动态模型)
基于密度 DBSCAN(基于高密度连接区域)、DENCLUE(密度分布函数)、OPTICS(对象排序识别)
基于网格 STING(统计信息网络)、CLIOUE(聚类高维空间)、WAVE-CLUSTER(小波变换)
基于模型 统计学方法、神经网络

此外还有,最优分割法(有序样本聚类)、模糊聚类法(应用模糊集理论)、图论聚类…
这个水太深了,看了半天是不是发现自己就只会k均值和birch系统聚类啊…真真真的学无止境

算法名称 描述
K-Means K均值算法是一种快速聚类算法,在最小化误差函数的基础上将数据划分为预定的K簇。数据量大的时候也会比较方便和快速。
K-中心点 K均值对孤立点比较敏感,因此这算一个改进算法,不是选择簇中对象的平均值作为簇中心,而是选择簇中离平均值最近的对象作为簇中心。计算量原大于K均值,因此适合小样本数据。
K-众数 顾名思义,不是采用均值作为中心,而是众数。用来处理分类型数据,统计频率即可,弥补K均值只能做数值计算的不足。也是最K均值的改进算法之一。
K-Protype K均值和K众数的结合,分别用于数值型数据和分类型数据。也是最K均值的改进算法之一。
CLARA clustering large application,大型应用聚类,基于抽样的方法,采用数据集的多个随机样本,然后使用PAM方法计算各个样本中的最佳中心点。也是最K均值的改进算法之一。
CLARANS clustering large application basedupon randomized search,基于随机搜索的聚类大型应用。在数据中随机选取K个对象当中心,随机选择一个当前中心点和一个不是当前中心点进行替换,看是否能改善绝对误差,随机搜索L次,组成局部最优解集合。然后重复该过程M次,返回最佳局部最优解。也是最K均值的改进算法之一。
系统聚类 常用的就是那个birch。由高到低成树形结构。适用于小样本数据。

参考博客https://blog.csdn.net/wojiaosusu/article/details/56960103

函数名称 参数 范围 距离度量
K-means 簇数 大样本、聚类数目中等 点之间的距离公式
spectral clastering 簇数 样本数中等、聚类数目小 图距离
ward hierarchical clustering 簇数 大样本、聚类数目大 点之间的距离
agglomerative clustering 簇数、链接类型、距离 大样本、聚类数目大 任意成对点线图之间的距离
DBSCAN 半径大小、最低成员数 样本数中等、聚类数目中等 最近点之间的距离
birch 分支因子、阈值、可选全局集群 大样本、聚类数目大 点之间的欧式距离

参考书目:王宏志,大数据分析原理与实践[M],北京:机器工业出版社,2017.

两个n维向量 : a ⃗   ( x 11 ,   x 12 , ⋅ ⋅ ⋅ ,   x 1 n ) \vec{a}\ (x_{11}, \ x_{12}, ···,\ x_{1n}) a  (x11, x12,, x1n) 与 b ⃗   ( x 11 ,   x 12 ,   ⋅ ⋅ ⋅ ,   x 1 n ) \vec{b}\ (x_{11},\ x_{12},\ ···,\ x_{1n}) b  (x11, x12, , x1n) 之间的欧式距离为:
d 12 = ∑ k = 1 n ( x 1 k − x 2 k ) 2 d_{12}=\sqrt{\sum_{k=1}^n{(x_{1k}-x_{2k})^2}} d12=k=1n(x1k

版权声明:本文为zywnnblog原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/zywnnblog/p/14256224.html