聚类-衡量指标

xiuercui 2019-12-08 原文

均一性：一个簇只包含了一个类别的样本，则满足均一性

完整性：同类别的样本被归类到相同的簇中，则满足完整性

若使得聚类的簇一直减小，直到剩下一个簇，那么这个聚类的完整性是最好的，但是，均一性是最差的。

同理，若n个样本被分为了n个簇，那么这个聚类的均一性一定是最好的，但是完整性确是最差的.

这两个是相互影响的.若想均衡一下两个，那么就需要均一性和完整性的加权平均.

ARI：adjusted_rand_index

数据集S共有N个元素，两个聚类结果分别是

其实就是看，取出一个样本，看这个样本在X中属于哪个类别，再看这个样本在Y中属于哪个类别，计算相同的概率。也就是说如果X,Y聚类结果相同的话，那么这个样本在X,Y中属于的类别一定是相同的。

参考一个矩阵：

解释一下这个矩阵，第一行就是既是类别X1，又是Y1，Y2,YS的样本的数量，总共是a1，第一纵列就是既是类别Y1，又是X1,X2,XR的样本的数量，总共是b1，样本总数是N.

AMI：adjusted_mutual_info

同样的矩阵，我们将X,Y看成随机变量，然后我们计算随机变量之间的互信息，用这个互信息作为度量标准

正则化互信息：用互信息除以各自的熵的乘积的开方

ARI和AMI都必须提前知道原始的样本属于哪个标记.

轮廓系数：

计算样本i到同簇其他样本的平均距离ai.

ai越小，说明样本i越应该被聚类到该簇，将ai称为样本i的簇内不相似度.

簇C中所有样本的ai均值称为簇C的簇不相似度.

计算样本i到其他某簇Cj的所有样本的平均距离bij，称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度

bi越大，说明样本i越不属于其他簇.

随机推荐

程序入口 SpringApplication.run(BeautyApplication.class, arg […]...

使用Spring Data JPA CrudRepository 和JpaRepository 的好处：继承 […]...

摘要：在当前GaussDB(DWS)的能力中主要支持两种过程化SQL语言，即基于PostgreSQL的PL/p […]...

不要为了虚荣心而让孩子过早的学习人工智能 (转) 版权申明：本文为博主窗户(Colin Cai)原创，欢迎转帖 […]...

html-有趣的标签-会移动的文字 <!DOCTYPE html><html lang=&# […]...

Java多线程实现（四种方法） 1.继承Thread类，重写run方法（其实Thread类本身也实现了Ru […]...

Flask前后端分离项目案例

简介学习慕课课程，Flask前后端分离API后台接口的实现demo，前端可以接入小程序，暂时已经完成后台AP […]...

简易购物车项目这是一个用intellij IDEA做的简易的javaweb项目，开发环境使用的jdk1.8和 […]...

聚类-衡量指标的更多相关文章