PCA主成分分析理解

BirdCage 2021-08-16 原文

啊作为一个没学过线代的人……当初写eigenface的时候看PCA看了非常之久……
这里尽量简单的描述这个概念
啊全是随手画的图

基本介绍

需要知道的：
矩阵乘法的本质是坐标变换。
主要通过二维到一维的方式来通俗的描述一下PCA。定义什么可以参考维基之类的。
https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90

看到下面这幅图上有一堆的二维点。
这里写图片描述
那我们要找一个方式把他转换到一维的。
当然如果考虑非线性就很复杂了……这里就考虑线性的。

提供AB两种降维方式。实心的点是他们降到一维之后的坐标。
这里写图片描述

或许这个图看起来可以说是A这种降维【我无数次打出来姜维小哥哥】比较合理，直观上来讲

每个点的失真比较小（就空心点到实心点的距离比较小）
最后结果比较分散，也就是说在A这条直线上点的差异性得以保留，而在B这条直线上提取出来的更多是它们的共性。

主成分分析中，这种直观的判断方式，被确定为投影之后方差最大
（后来看资料发现两种定义都有）
而经过求解，这个向量正好对应协方差矩阵最大特征值对应的特征向量。（证明放在最后）

那么来一个直观一点的方式……【这里的一些符号定义和下面证明里一样】
如果求出的两个特征向量分别为【markdown公式啥时候那么丑了……预览不是这样的不是！】

a 1 = ⎡ ⎣ 2 \sqrt 2 2 \sqrt 2 ⎤ ⎦

a 2 = ⎡ ⎣ 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦

那么降到特征空间之后得到的值为

⎡ ⎣ 2 \sqrt 2 2 \sqrt 2 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦ [12] = ⎡ ⎣ 3 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦

如果不做什么的话是可以正常还原的……

⎡ ⎣ 2 \sqrt 2 2 \sqrt 2 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦ ⎡ ⎣ 3 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦ = [12]

但是需要降维也就是认为

⎡ ⎣ 3 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦

可以省去特征根比较小的点。这些点我们认为体现了更多的“共性”而不是“特性”。

这样还原结果如下【0表示这个维度被省去】

⎡ ⎣ 2 \sqrt 2 2 \sqrt 2 2 \sqrt 2 - 2 \sqrt 2 ⎤ ⎦ [3 2 \sqrt 2 0] = [3 2 3 2]

可以看到有一定的失真……但是也可以认为还保留着基本的一些特征【废话】

其他

Q 如果用非人脸图像降维到人脸空间会怎么样？

A 不会怎么样……就，你重构出来可能还是一个脸……失真比较大
就相当于，你提取的特征都是于脸有关的，虽然输入的不是脸但是他依然会提取其中代表人脸的特征……这样
这里写图片描述
失真差不多和上图那个Q点一样大（比划）因为A不是由他提取出的特征

Q 简化计算

https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E8%84%B8
可以参考一下这个……

直观点理解就是，比如在这个二维空间中只有一个点，那么肯定只需要一个特征向量就可以表示它。
这里写图片描述
如上图，不管P在什么位置上，肯定可以只用A一个特征向量来表示，它在B上的值肯定是0.因此，我们可以不关心B的这个向量，而只求出A这个向量。
然后这就涉及某些线代的运算了……

Q 其他

我觉得PCA只能保证提取的是一维向量特征的时候，结果是最好的……而不一定能保证提取k维特征的时候最好……主成分分析法的证明过程可以看出，他能保证对于取得的特征根最大的值，一定是方差最大的，而缺少对于提取k维特征是最好的定义。毕竟这样提取的结果也包括方差最小的（特征根最小）。

证明

来自ZJU潘纲老师课件// 后来看到请勿上传外网还是算惹
这个markdown公式长这样毫无重新输一遍的热情……

然后这个链接会全一点把两种定义都证了
http://www.cnblogs.com/pinard/p/6239403.html

这里写图片描述

本文链接：https://www.cnblogs.com/BirdCage/p/9974015.html

PCA主成分分析理解的更多相关文章

理解 Redux 的中间件

将该思想抽象出来，其实和 Redux 就无关了。问题变成，怎样实现在截获函数的执行，以在其执行前后添加自己的逻 […]...

php yield理解

使用yield之前function actionIndex($message = 'hello world'){$valuesArray = [];// 获取初始内存使用量echo '开始'.round(memory_get_usage...

理解 QEMU/KVM 和 Ceph（1）：QEMU-KVM 和 Ceph RBD 的缓存机制总结

本系列文章会总结 QEMU/KVM 和 Ceph 之间的整合：（1）QEMU-KVM 和 Ceph RBD […]...

spark partition 理解 / coalesce 与 repartition的区别

一.spark 分区 partition的理解： spark中是以vcore级别调度task的。如果读取的是 […]...

理解NodeJS多进程

序言一次面试中，我提到自己用过pm2，面试接着问：「那你知道pm2父子进程通信方式吗」。我大概听说pm2有cluster模式，但不清楚父子进程如何通信。面试结束后把NodeJS的多进程重新整理了一下。对于前端开发同学，一定很清楚js是...

Epoch、Batchsize、Batchnumber、Iterations 理解

梯度下降法首先让我们来回顾一下这个常见的不能再常见的算法。梯度下降法是机器学习中经典的优化算法之一，用于寻求 […]...

一个思维导图，带你深入理解 Linux 网络

说明思维导图目录内核接收网络包内核与用户进程协作内核发送网络包TCP 连接网络性能优化GitHub 项目说明经朋友推荐发现一本好书：《深入理解 Linux 网络》，本文以思维导图的形式，展示俺做的笔记，原书对 Linux 网络...

[html] 说说你对HTML5中pattern属性的理解

[html] 说说你对HTML5中pattern属性的理解好像是判断input在输入时按下tab键跳转到下一个input的优先级个人简介我是歌谣，欢迎和大家一起交流前后端知识。放弃很容易，但坚持一定很酷。欢迎大家一起讨论主目录...

随机推荐

css3基础知识整理

1、边框（1）盒子圆角bored-radius：25px/40%; border-radius:15px 1 […]...

你确定你了解什么是linux系统？

1、什么是linux发行版就Linux的本质来说，它只是操作系统的核心，负责控制硬件、管理文件系统、程序进程 […]...

购买了阿里云ECS云服务器还要再买数据流量吗？

购买了阿里云ECS云服务器还要再买数据流量吗？一般来说的话是不用的，因为我们的阿里云带宽计费有2种方式。一个 […]...

智能船舶概况（国内篇）

2017年12月5日，由中国船舶工业集团公司研制的38800吨智能散货船“大智”轮在上海海事会上正式发布，同时 […]...

HTML5 调用手机摄像头拍照

一、getUserMedia API简介 getUserMedia API为用户提供访问硬件设备媒体（摄像头、 […]...

Spring Cloud实战 | 最终篇：Spring Cloud Gateway+Spring Security OAuth2集成统一认证授权平台下实现注销使JWT失效方案

Spring Cloud Gateway+Spring Security OAuth2集成统一认证授权平台下实 […]...

多进程界面开发-Qt试玩儿

目录一、概述二、效果展示三、使用方法 1、启动外部进程 2、创建Qt窗口 3、加入到主进程布局四、嵌入 […]...

回溯算法

回溯算法本质就是枚举，在给定的枚举集合中不断从其中尝试搜索找到问题的解，如果在搜索过程中发现不满足求解条件，则 […]...

PCA主成分分析理解

基本介绍

其他

Q 如果用非人脸图像降维到人脸空间会怎么样？

Q 简化计算

Q 其他

证明