MLDS笔记：Generalization

cherrychenlee 2018-05-07 原文

MLDS笔记：Generalization

1 泛化能力

图1-1
用VC维来衡量一个模型的表达能力，比如２维线性模型的VC维为３。
图1-2
在图1-2中，随便给啥训练数据该model都能learn起来。
从理论上来看，当２个model在训练数据上表现一样时，为了更好的泛化能力，应该选择表达能力更小的model。
这个结论是一定的吗？
图1-3
图1-4
图1-5
图1-6
图1-7
神经网络自带regularization吗？
图1-8
从图1-8可以看出，2到12层得到的线都是很平滑的。
如果让网络去拟合虚线，网络也是能够做到的，说明该网络有很大的模型表达能力，但是2到12层对应的线却没有形成虚线状。
可见神经网络没有我们想象的那么容易过拟合。
关于这点背后的原因，现在无最佳解答。一种说法是因为初始化在原点附近，梯度下降后得到的参数与原点也很近，所以使用基于梯度的优化方法得到的神经网络能够自带正规化。
总之，深度模型的表达能力是很强的，但是，它并没有我们想象中的那么容易过拟合，其中的原因尚不清楚。

2 泛化指标

一个神经网络有哪些特性可以使其不易过拟合？知道答案的话就可以在训练的时候将这些特性塞进去。

2.1 暴力记忆

神经网络的学习过程并不是暴力记忆。
虽然给定任意输入，神经网络都能learn起来，但是learn出的并不是同一个model。
图2.1-1
图2.1-2
图2.1-3

2.2 Sensitivity

如何定义Sensitivity？
图2.2-1

如图2.2-2和图2.2-3所示，训练数据出现处的Sensitivity通常较小，即自信度较高；训练数据未出现处的Sensitivity通常较大，即自信度较低。

2.3 Sharpness

图2.3-1
如何定义Sharpness？
有很多种定义方式，不限于下图。
图2.3-2
常small batch训练得到的minima泛化能力较好，关于背后原因，有一种说法是其较易找到较flat的minima。
图2.3-3
图2.3-4
图2.3-5
图2.3-6
*泛化能力的好坏与Sensitivity的大小有关；
泛化能力的好坏与Sharpness的大小有关(这一点的不同意见参见

Laurent Dinh, Razvan Pascanu, Samy Bengio, Yoshua Bengio, Sharp Minima Can Generalize For Deep Nets, PMLR, 2017)*

posted on 2018-05-07 13:22 cherrychenlee 阅读(…) 评论(…) 编辑收藏

版权声明：本文为cherrychenlee原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/cherrychenlee/p/9001412.html

MLDS笔记：Generalization的更多相关文章

经典卷积神经网络算法(3)：VGG
VGG的实质是AlexNet结构的增强版，它将卷积层的深度提升到了19层，并且在2014年的ImageNet大 […]...
归并排序、jensen不等式、非线性、深度学习
前言在此记录一些不太成熟的思考，希望对各位看官有所启发。从题目可以看出来这篇文章的主题很杂，这篇文章中我主 […]...
深度学习优缺点
神经网络在发展过程中，经历了3次起伏，这很重要的原因在于神经网络的优缺点在不同时代得以体现。在理论上讲，只包含 […]...
深度解读GoogleNet之Inception V1
GoogleNet设计的目的 GoogleNet设计的初衷是为了提高在网络里面的计算资源的利用率。 Motiv […]...
DeepLearning.ai学习笔记（四）卷积神经网络 — week2深度卷积神经网络实例探究
一、为什么要进行实例探究？通过他人的实例可以更好的理解如何构建卷积神经网络，本周课程主要会介绍如下网络 Le […]...
常见的GAN网络的相关原理及推导
常见的GAN网络的相关原理及推导在上一篇中我们给大家介绍了GAN的相关原理和推导，GAN是VAE的后一半，再 […]...
浅谈深度学习:如何计算模型以及中间变量的显存占用大小
前言亲，显存炸了，你的显卡快冒烟了！ torch.FatalError: cuda runtime erro […]...
吴恩达深度学习笔记 course4 week2 深度卷积网络实例探究
1.why look at case study 这周会讲一些典型的cnn模型,通过学习这些,我们能够对于cn […]...

随机推荐

Linux学习笔记：scp远程拷贝文件
　　scp是secure copy的简写，用于Linux下进行远程拷贝文件的命令，类似的有cp，不过cp仅在本 […]...
关于SDK和API的区别 – Cherishforchen
关于SDK和API的区别链接地址：https://blog.csdn.net/chenzz2560/arti […]...
STM32F412应用开发笔记之五：结合W5500实现以太网通讯
因实际使用需求我们测试一下网络通讯，在NUCLEO-F412ZG测试板上没有以太网部分，我们选择外接一个W55 […]...
Word样式教程
目录写在前面样式可以解决什么问题？本文适合于快速入门一切皆样式样式与格式的关系如何修改样式建立 […]...
window下JBoss7 安装部署
0x01 下载安装 1、下载地址： http://www.jboss.org/jbossas/download […]...
二分类神经网络公式推导过程
简介：本文主要介绍了简单二分神经网络的公式推导过程。欢迎探讨，如有错误敬请指正如需转载，请注明出处 htt […]...
NodeJs入门基本教程
module和exports 1 /* 2 * module和exports 3 * 4 * 在一个模块中通过 […]...
Multisim仿真验证之二极管的特性参数 – yf.x
Multisim仿真验证之二极管的特性参数二极管的特性正向 R1 10% 20% 30 […]...

展开目录

目录导航