作者:桂。

时间:2017-08-19  22:40:05

链接:http://www.cnblogs.com/xingshansi/p/7398396.html 


前言

BP与RBF是分析基本神经网络的两个概念,最近接触到这些概念(目前的认识是:用在矩阵分析中减少计算量),简单梳理一下。

这里记录基本的BP神经网络,神经网络的基础是感知器,这里的BP(back propagation )算法是求解神经网络参数的一种实现思路。

一、算法简介

  任何从输入到输出的连续函数都可以用一个三层非线性网络实现,条件是给出足够多的隐单元数。BP的基本结构:

包括输入单元、输出单元、中间的各个层次称为隐单元,上面的网络结构可以表述为:

其中f(.)是判别函数,因为优化通常涉及到求导,所以平滑性对梯度下降类学习方法很有效,通常f(.)选取连续易求导的判别函数,如sigmoid。

反向传播主要利用误差项(正是因为:根据误差项,建立准则函数,进行参数优化,而误差只能从输出计算,因而误差的计算顺序从后往前,也就是反向传播的概念,进而更新权重w。)。

由于涉及到梯度下降,因此针对参数求解的那一套改进这里也使用:如基于一阶导的随机梯度下降、批量梯度下降,基于二阶导的Newton-raphson等等。

 

二、BP的直观描述

   A-结构图及映射关系

首先借助一篇讲义来直观描述BP的思想:

BP的结构图:

结构图对应的映射关系:

  B-神经网络的计算步骤

神经网络在参数给定的情况下,计算依旧是从输入→输出的顺序。

第一层

第二层

第三层

 

 至此已经得到输出结果,可以根据训练数据的理想输出,计算误差(反向传播)。

  C-误差反向传播

计算误差,开始反向传播:

反传至第二层:

反传至第一层:

 

至此完成了误差的反向传播,带入更新公式(也称为链式微分法则)。

  D-利用BP更新权重的步骤

第一层

第二层

 

第三层

B、C、D操作循环往复,直到满足迭代约束条件。

 

三、BP的参数推导及算法流程

  A-理论推导 

为了方便,直接copy原文的图:

对应网络层的加权组合成为het。

设定准则函数J,这里选取常用的最小方差:

1-隐层到输出层

核心思路还是梯度下降法更新参数,使用链式微分法则:

其中单元k的敏感度(sensitivity)定义为:

敏感度描述总误差怎样随着单元的激发而变化。

同样是链式法则(其实就是逐层推进):

从而计算出更新准则:

2-输入层到隐层

与上面的步骤类似:

后两项可以直接得出,主要是计算第一项求解,分析链式流程:J→z→net_k→y,从而有:

定义隐单元的敏感度:

从而得到学习规则:

至此,完成了整个网络的权重更新过程。

  B-算法流程

 这里给出两种基本的实现思路,一是基于随机梯度下降,二是基于批量梯度下降,更多求解思路可以参考梯度下降法的思路。

1-随机梯度下降

2-批量梯度下降

 

   C-算法推广

BP的思路可以直接推广至:

  • 输入单元包含偏置bias单元;
  • 允许输入单元直接与输出单元和隐单元相连
  • 网络多于三层
  • 不同层有不同的非线性函数f(.)
  • 每个单元有它各自的非线性函数f(.)

参考

  • http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html
  • 《模式分类》第二版,p235~240.

版权声明:本文为xingshansi原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/xingshansi/p/7398396.html