Gradient Descent

echo-coding 2018-03-24 原文

理自Andrew Ng的machine learning课程。

梯度下降算法
梯度下降算法的直观展示
线性回归中的梯度下降

前提：

线性回归模型：$h(\theta_0,\theta_1)=\theta_0+\theta_1x$

损失函数：$J(\theta_0,\theta_1)=\frac{1}{2m} \sum_{i=1}^m (h_\theta(x^(i))-y^(i))^2$

1、梯度下降算法

目的：求解出模型的参数 / estimate the parameters in the hypothesis function

如下图所示，$\theta_0,\theta_1$代表模型的参数，$J(\theta_0,\theta_1)$代表模型的损失函数

目的：从某一点出发，走到最低点。

怎么走：沿着所在点处最陡的方向下降。某一点山坡最陡的方向就是这一点的切线方向，也就是这一点的导数。每一步走多大取决于学习率$\alpha$。

在图中，每一个十字星之间的距离取决与$\alpha$的大小。小的$\alpha$会使两点之间的距离比较小，大的$\alpha$会产生大的步距。每一步走的方向取决于所在点的偏导。不同的起始点会有不同的终点，如上图从A出发最终到达B，而从C出发最终到达D。

梯度下降算法如下：

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ repeat util convergence

注意：$\theta_0,\theta_1$在每一步的迭代中都是同步更新的

2、梯度下降算法的直观展示

如下图：此图是一个损失函数的图像

当$\theta_1$在最小值点的右边时，图像的斜率（导数）是正的，学习率$\alpha$也是正的，根据梯度下降算法的公式，更新后的$\theta_1$是往左边方向走了，的确是朝着最小值点去了；

当$\theta_1$在最小值点的左边时，图像的斜率（导数）是负的，学习率$\alpha$是正的，根据梯度下降算法的公式，更新后的$\theta_1$是往右边方向走了，也是朝着最小值点去了；

另外，我们需要调整$\alpha$使的算法可以在一定的时间内收敛。收敛失败或者收敛的非常慢，都说明使用的步长$\alpha$是错误的。

如果使用固定的$\alpha$，算法会收敛吗？

梯度下降算法隐含的一个信息就是，当点越来越接近最小值点的时候，梯度也会越来越小，到达最小值点时，梯度为0；

所以即使不去调整$\alpha$，走的步长也是会越来越短的，算法最终也还是会收敛的，所以没必要每次都调整$\alpha$的大小。

3、线性回归中的梯度下降算法

当把梯度下降算法具体的运用到线性回归上去的时候，算法就可以在偏导部分写的更加具体了：

repear until convergence {

$\qquad \theta_0:=\theta_0-\alpha \frac {1}{m} \sum_{i=1}^m (h_\theta(x_i)-y_i)$

$\qquad \theta_1:=\theta_1-\alpha \frac {1}{m} \sum_{i=1}^m ((h_\theta(x_i)-y_i)x_i)$

}

batch gradient descent

以上：在每一步更新参数时，让所有的训练样本都参与更新的做法，称为batch gradient descent；

注意到：虽然梯度下降算法可能会陷入局部最优的情况，但是在线性回归中不存在这种问题，线性回归只有一个全局最优，没有局部最优，算法最终一定可以找到全局最优点（假设$\alpha$不是特别大）。

线性回归中，J是一个凸二次函数，这样的函数是碗状的（bowl-shaped），没有局部最优，只有一个全局最优。

本文链接：https://www.cnblogs.com/echo-coding/p/8641327.html

Gradient Descent的更多相关文章

ML.Net技术研究系列1-入门篇

近期团队在研究机器学习，希望通过机器学习实现补丁发布评估，系统异常检测。业务场景归纳一下：收集整理数据（发布 […]...

总结学习机器学习过程中用到的数据学知识

现在机器学习行业持续加温，应届毕业生年薪持续走高，2019年毕业生算法岗年薪40万起，上不封顶，吸引着越来越多 […]...

NoteBook学习（一）——– Zeppelin VS Jupyter

html,body { } html { font-size: 14px; color: rgb(51, 51 […]...

机器学习 | 算法笔记- 逻辑斯蒂回归（Logistic Regression）

前言本系列为机器学习算法的总结和归纳，目的为了清晰阐述算法原理，同时附带上手代码实例，便于理解。目录　　 […]...

python_mmdt:从0到1–实现简单恶意代码分类器(二)

上篇文章python_mmdt:一种基于敏感哈希生成特征向量的python库(一)我们介绍了一种叫mmdt_h […]...

ML.NET 示例：回归之销售预测

写在前面准备近期将微软的machinelearning-samples翻译成中文，水平有限，如有错漏，请大家 […]...

线性回归损失函数求解

引言上一篇笔记中已经记录了，如何对一个无解的线性方程组$Ax=b$求近似解。在这里，我们先来回顾两个知识 […]...

利用线性回归模型判断文章类别

平时，可以借助计算机来判定一篇文章是否是体育类的新闻，或者是艺术类的新闻。因此我们可以借助线性回归模型对其进行 […]...

随机推荐

200道历年逻辑推理真题详解

200道历年逻辑推理真题详解 01.粮食可以在收割前在期货市场进行交易。如果预测谷物产量不足，谷物期货价格 […]...

java基础-Eclipse开发工具介绍

　　　　　　　　　　　　　　　　　　　　java基础-Eclipse开发工具介绍　　　　　　　　　　　　　　 […]...

[绝对干货] 入门区块链技术看这里就够了

区块链技术干货集合 A collection of awesome blockchain articles. […]...

jmeter 使用总结

主要介绍了jmeter的使用情况：安装和启动(mac)、Thread Group设置、Http Request […]...

热更新应用–热补丁Hotfix学习笔记

一.热补丁简介　　热补丁主要是用于将纯C#工程在不重做的情况下通过打补丁的形式改造成具备lua热更新功能工程 […]...

阿里云服务器优惠卷免费发放中 …

阿里云服务器优惠卷免费发放中 … 阿里云幸运券是有由阿里云官方推出的一项针对小型用户的优惠活 […]...

花一天时间试玩vsphere6.7（EXSI）服务器版的vmware

花一天时间试玩vsphere6.7（EXSI）服务器版的vmware 要注册账号（2019年11月14注册）： […]...

Golang 入门 : 等待 goroutine 完成任务

Goroutine 是 Golang 中非常有用的功能，但是在使用中我们经常碰到下面的场景：如果希望等待当前的 […]...

Gradient Descent

Gradient Descent的更多相关文章

随机推荐

热门专题

目录导航