深度学习中的batch_size,iterations,epochs等概念的理解

XDU-Lakers 2019-03-27 原文

在自己完成的几个有关深度学习的Demo中，几乎都出现了batch_size,iterations,epochs这些字眼，刚开始我也没在意，觉得Demo能运行就OK了，但随着学习的深入，我就觉得不弄懂这几个基本的概念，对整个深度学习框架理解的自然就不够透彻，所以今天让我们一起了解一下这三个概念。

1.batch_size

深度学习的优化算法，用大白话来说其实主要就是梯度下降算法，而每次的参数权重更新主要有两种方法。

（1）遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度

这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。

（2）stochastic gradient descent

每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降。这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，hit不到最优点。两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。

为了克服两种方法的缺点，现在一般采用的是一种折中手段，mini-batch gradient decent，小批的梯度下降，这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据

集相比小了很多，计算量也不是很大。

基本上现在的梯度下降都是基于mini-batch的，所以深度学习框架的函数中经常会出现batch_size，就是指这个意思。

2.iterations

iterations（迭代）：每一次迭代都是一次权重更新，每一次权重更新需要batch_size个数据进行Forward运算得到损失函数，再BP算法(反向传播算法)更新参数。1个iteration等于使用batchsize个样本训练一次。

3.epochs

epochs被定义为向前和向后传播中所有批次的单次训练迭代。这意味着1个周期是整个输入数据的单次向前和向后传递。简单说，epochs指的就是训练过程中数据将被“轮”多少次，就这样。

接下来让我们看个例子：

假设训练集有1000个样本，batchsize=10，那么：

训练完整个样本集需要： 100次iteration，1次epoch。

具体的计算公式为： one epoch = numbers of iterations = N = 训练样本的数量/batch_size

李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料，在YouTube、网易云 […]...

李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料，在YouTube、网易云 […]...

随机推荐

【算法】算法笔记

搞定[机试]算法刷题全文超过80页pdf。常规机试题目，这篇就够了。算法专题目录算法专题一、树和图 […]...

底层网络知识详解-陌生的数据中心6-移动网络前面讲的都是电脑上网的场景，那使用手机上网有什么不同呢？移动网 […]...

通过Lua脚本批量插入数据到布隆过滤器有关布隆过滤器的原理之前写过一篇博客：算法(3)—布隆过 […]...

目录环境准备步骤1,保证至少有三台服务器步骤2,格式化和配置硬盘步骤3,安装GlusterFS 步骤4 […]...

什么是IPv6

　　现有的互联网是在IPv4协议的基础上运行。IPv6是下一版本的互联网协议，它的提出最初是因为随着互联网的迅 […]...

0X01 正常情况下TCP连接会通过4次挥手进行拆链（也有通过RST拆除连接的可能，见为什么服务器突然回复RS […]...

一篇理解什么是CanSet, CanAddr？ 2020-10-27 12:38 轩脉刃阅读(0) 评 […]...

本篇我们着重分析Eureka服务端的逻辑实现，主要涉及到服务的注册流程分析。在Eureka的服务治理中，会涉 […]...

深度学习中的batch_size,iterations,epochs等概念的理解的更多相关文章