机器学习之线性回归、多项式回归
前言
以下内容是个人学习之后的感悟,转载请注明出处~
简介
回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于
预测或者分类。该方法处理的数据可以是多维的。
一、线性回归
- 原理:
在连续型统计数据情况下,选取大量的样本数据,如下图中的红色十字表示的(x,y)值,根据这些样本的趋势,
选择合适的假设函数,此处选择的是线性回归的假设函数。根据样本,计算代价函数的极小值,此时的θ值就是我们
需要得到的数学模型的参数值。
计算代价函数的极小值~ why? (没学过统计概率学的童鞋可能不太清楚)
首先,我们要寻找的目标,是能够尽量符合所有样本的数学模型。当然,一般情况下,这是找不到的,那么,我
们就会考虑:就算不能找到完全符合的数学模型,我们也可以找尽可能符合的数学模型来代替。没错~,在线性规划
中,我们采用了最小二乘法,使样本在数学模型中的误差平方和最小,这也就产生了代价函数。我们只需要找到
代价函数的极小值,此时的θ代入到假设函数中,我们就得到了比较符合的数学模型。
- 假设函数(hθ(x)=θx):
- 代价函数:
有人会问:不是说代价函数J(θ0,θ1)是由最小二乘法中的误差平方和推导而来吗?前面的1/m,我们能
理解,是平均了一下,那么1/2是哪来的呢?
其实吧,刚开始我也不是特别明白,直到求解J(θ0,θ1)的极小值时,我才恍然大悟。原来,我们在使用
梯度下降法时,需要求导(懂了吗?误差的平方求导的时候会产生一个2)。当然,这只是我个人理解~
- 目标:
寻找J(θ0,θ1)的极小值点,获得此时的θ值。
- 方法:
梯度下降法(具体详情点链接)
两种方法的比较如下:
二、多项式回归
- 原理:
前面提到,根据样本的趋势来决定假设函数,当趋势较为复杂时,线性模型就不适用了。下图是房子的价格与尺
寸的关系图,从图中我们可以看出,符合样本趋势的数学模型应该是非线性的,在这里我们采用的是二次曲线。
但是,我们怎么去求该数学模型的代价函数极小值呢?太复杂了,oh~ no!
其实,我们可以简化求解的复杂度,只需要把符合趋势的假设函数转换为等价的线性模型即可。具体转换见下面。
- 假设函数:
- 转换函数:
通过以下转换:
得到:
- 方法:
既然得到了线性数学模型,接下来就是你的showtime了~~
以上是全部内容,如果有什么地方不对,请在下面留言,谢谢~