机器学习——聚类分析和主成分分析

connorzx 2021-09-08 原文

机器学习——聚类分析和主成分分析

在机器学习中，非监督性学习主要用来分类。其中重要的两种就是聚类分析和主成分分析。这两类算法在数据压缩和数据可视化方面有着广泛的应用。

所谓无监督学习是指训练集里面只有点\(\{x^{(1)},x^{(2)},\ldots,x^{(m)}\}\)，没有对应的性质标签\(y\)。所以非监督性学习的目的不再是预测，而是分类。

一、聚类分析

经典的聚类分析算法是K-mean算法。K是类的数目，mean是均值。

1. K-mean算法

1.给定训练集\(\{x^{(1)},x^{(2)},\ldots,x^{(m)}\},x^{(i)} \in R^n\)，随机选取\(k\)个聚类的质心点，记为\(u_1,u_2,\ldots,u_k \in R^n\)
2.重复下面过程知道算法收敛{
对于每一个样例\(i\),计算与它距离最近的质心点，并记下相应中心的编号。

\[c^{(i)}:=arg \min \limits_{j} ||x^{(i)}-u_j||^2
\]

对于每一类$j$，重新计算对应的质心

\[u_j:=\frac{\sum \limits_{i=1}^{m}1 \{c^{(i)}=j \}x^{(i)}}{\sum \limits_{i=1}^{m}1 \{c^{(i)}=j\}}
\]

注意：在处理前，先将数据作规范化处理

2. 如何选取起点

与选取随机点相比，随机选取数据点作为质心更加合理。另外，因为K-means算法可能收敛到局部最优点，所以一般采取多次外循环，求得一系列的结果，然后选取结果中\(J（c,u）\)最小的一个。\(J（c,u）\)的定义如下：

\[J（c,u）= {1 \over m}\sum \limits _{i=1}^{m}||x^{(i)}-u_{c^{(i)}}||^2
\]

3. 如何决定分类个数

关于分类个数的选取，一般是根据需求人工选择的。选择时一般考虑分类的目的是什么，然后根据更好地实现目的进行选择。
其次，有一种可以参考的分类方法，叫做“肘部法则”。如下图所示，一般选取斜率从大到小急剧变化那一点。但有时，也会有斜率一直缓慢变化的情况。

4. 应用

聚类分析可以用于数据压缩。具体思路就是将图片内所有的像素点分成K类，每一类的颜色设置成一个值。下面是例子，将原来的颜色压缩成了16个，仍然可以辨认出图像。

二、主成分分析（PCA）

1.算法步骤

1.数据规范化。将数据规范为均值为0，方差为1的数据。
2.求解协方差矩阵。

\[\Sigma {\rm{ = }}{1 \over {\rm{m}}}{X^T}X
\]

3.对下方差矩阵进行SVD分解。

\[[U, S, V] = svd(\Sigma)
\]

4.数据投影。

\[Z=XU(:,1:K)
\]

5.数据恢复

\[X_{rec}=ZU(:,1:K)^T
\]

2.算法原理

PCA的算法原理是基于SVD分解的一种算法。根据SVD分解中奇异值是从大到小排列，只选取前K项最大值，对原信号进行相应的变换。将相当于N维空间到K维空间的投影。
其中，K值的选取需要满足\(\frac{\sum \limits_{i=1}^{K}S_{ii}}{\sum \limits_{i=1}^{N}S_{ii}} \ge 99 \%\)。

3.应用举例

数据压缩。数据压缩可用来存储数据、加快算法速度。
数据可视化。一般设法将数据降到2维或者3维，以便可视化。

下面例子是一个利用PCA算法来提取脸部特征后结果图。这些脸部特征可以用来进行面部识别。

版权声明：本文为connorzx原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/connorzx/p/4727686.html

机器学习——聚类分析和主成分分析的更多相关文章

机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别
一、问题与解决方案通过多元分类算法进行手写数字识别，手写数字的图片分辨率为8*8的灰度图片、已经预先进行过处 […]...
scikit-learn 1.0 版本新特性及变动前瞻性预览
1 简介　　就在几天前，著名的机器学习框架scikit-learn在pypi上释放了其1.0rc1版本，这里 […]...
机器学习、NLP、Python和Math最好的150余个教程（建议收藏）
机器学习、NLP、Python和Math最好的150余个教程（建议收藏）编辑 | MingMing 尽管 […]...
RandomForest 随机森林算法与模型参数的调优
随机森林算法由多个决策树分类器组成，每一个子分类器都是一棵 CART 分类回归树，所以随机森林既可以做分类，又 […]...
机器学习第5篇：knn回归
基于最邻近算法的分类，本质上是对离散的数据标签进行预测，实际上，最邻近算法也可以用于对连续的数据标签进行预测， […]...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转自：http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%8 […]...
只需十四步：从零开始掌握 Python 机器学习（附资源）
只需十四步：从零开始掌握 Python 机器学习（附资源）分享一篇来自机器之心的文章。关于机器学习的起步，讲 […]...
【翻译】什么是最重要的机器学习技术？
“ 多读书，多看报，少吃零食多睡觉！为了深入了解机器学习，同时学习英语，我开始了“误导”他人的机器学习书籍翻译 […]...

随机推荐

frp+TeamViewer 完美解决TeamViewer5分钟商业提醒
必要条件：必须有一个公网服务器 frp是一个开源的端口转发工具，中文使用说明及下载地址在这里 https:/ […]...
java 算法练习
/** * 打印99乘法 */ for (int i = 1; i <= 9; i++){ for (i […]...
cenos6.4安装jdk8 – 利科尔多
cenos6.4安装jdk8 1.首先查看CentOS自带JDK是否已安装。直接输入java -versi […]...
Deepin-linux下的linux的终端下软件安装和卸载方法
1.方法一： sudo apt update #最好第一步是它 sudo apt install <pa […]...
PokemonGo-LBS AR项目实战 – jiahuafu
PokemonGo-LBS AR项目实战《Pokemon GO》在2016年发布，立即成为一款现象级手游 […]...
RocketMQ
MQ 　　MQ（Message Queue）是一种跨进程的通信机制，用于传递消息。通俗的说，就是一个先进先出的 […]...
sublime text3 最新 license注册码分享 2018
—– BEGIN LICENSE —– Die Socialisten GmbH 10 User Licens […]...
基于聚宽量化交易平台实现量化交易策略
一、入门量化策略　　JoinQuant聚宽API文档：https://www.joinquant.com/h […]...

展开目录

目录导航