模型构建:交叉验证

hbsygfz 2018-07-25 原文

交叉验证是模型比较选择的一种常用方法，本文对此进行总结梳理。

1.交叉验证的基本思想

交叉验证（cross validation）的基本思想就是重复地利用同一份数据。

2.交叉验证的作用

1）通过划分训练集和测试集，一定程度上减小了过拟合；
2）重复使用数据，尽可能多的从样本集上得到有用的信息。

3.交叉验证的主要方法

3.1 简单交叉验证

简单交叉验证，又称为留出法（hold-out），是指直接将样本集划分成两个互斥的计划，其中一个作为训练集（training set），另外一个作为测试集(testing set)。在训练集中进行学习训练，使用测试集来计算测试误差。
注意：
1）训练集和测试集中的数据分布要尽量与原始样本集一致，因此需要使用分层抽样（stratified sampling）的方式划分。
2）单次划分得到的结果进行学习产生的模型往往不够稳定可能，因此需要多次随机划分、重复进行实验评估后计算平均值来作为评估结果。
3）常用的划分比例为7:3或者8:2。

3.2 K折交叉验证

K折交叉验证（K-fold cross validation），是指将数据集划分成K个大小相近的互斥子集，每次选取其中的一个子集作为测试集，其他K-1个子集作为测试集，这样就可以得到K种选择结果，从而可以进行K次学习和预测，最终返回这K次测试结果的均值。

注意：
1）评估结果的稳定性很大程度上取决于K的取值，最常用的取值为10，其次为5和20等；
2）每个子集尽量保持数据分布一致，因此需要使用分层抽样；
3）和简单交叉验证一样，数据集的划分结果会可能影响模型最终的结果，为了减少这种划分带来的差异，可以重复进行p次划分，进行p次K折交叉验证，最终取这p次的平均评估结果。

3.3 留一交叉验证

留一交叉验证法，简称留一法（Leave-One-Out,LOO）,它是一种特殊的K折交叉验证，K=样本数N。因为每次只保留一个样本进行测试，因此，留一法不受随机样本划分的影响，构建的模型与原始样本集构建的模型很相似，因此，其评估结果也认为很准确。但是其缺陷是，当样本集很大时，训练N个模型的计算开销将非常大。因此，在数据量相对缺乏时，可以采用。

4.参考与感谢

[1] 机器学习
[2] Python数据分析与数据化运营

版权声明：本文为hbsygfz原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/hbsygfz/p/9364250.html

模型构建:交叉验证的更多相关文章

机器学习:基础概念
本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记，分享在此，作为机器学习系列的开篇文章，在本系 […]...
多项式回归 & pipeline & 学习曲线 & 交叉验证
多项式回归就是数据的分布不满足线性关系，而是二次曲线或者更高维度的曲线。此时只能使用多项式回归来拟合曲线。比如 […]...
[深度概念]·K-Fold 交叉验证 (Cross-Validation)的理解与应用
K-Fold 交叉验证 (Cross-Validation)的理解与应用我的网站 1.K-Fold 交叉验证 […]...
模型构建:不平衡样本集的处理
分类预测建模都有一个基本的假设，即样本集中不同类别的样本个数基本相同，但是在实际任务中，经常会出现各类样本个数 […]...
多元线性回归模型的特征选择：全子集回归、逐步回归、交叉验证
在多元线性回归中，并不是所用特征越多越好；选择少量、合适的特征既可以避免过拟合，也可以增加模型解释度。这里介绍 […]...

随机推荐

如何验证证书绑定?
前言: 这篇其实是上一篇的中文版,因为有同学希望我直接提供中文版,因此才又有了这一篇出现~ 我的几位朋友问 […]...
【认证与授权】2、基于session的认证方式
用户认证通过以后，在服务端生成用户相关的数据保存在当前会话`（Session）`中，发给客户端的数据将通过`s […]...
EV: 致新教育萤火虫父母们 – weihongji
EV: 致新教育萤火虫父母们 2012年02月16日致新教育萤火虫父母们：阅读，点亮心灯。如何让孩子 […]...
LNMP编译安装之php安装–图文详解
LNMP编译安装之php安装–图文详解 1、前言本次安装采用源码安装，主要资源包从官网下载，次要 […]...
win7 下flash swf读取不到其他文件夹的库连接类的问题
今天将as3程序同步到同事的win7系统下结果本来在xp下面跑的很顺的程序直接报错： “log […]...
移动端自动化测试（一）之 Appium＋Pyhton环境准备篇 – CockRoacher
移动端自动化测试（一）之 Appium＋Pyhton环境准备篇 2016-11-17 16:51 CockR […]...
PAT 1015 Reversible Primes (20分) 谜一般的题目，不就是个进制转换+素数判断
题目 A reversible prime in any number system is a prime w […]...
坐忘峰 golang入坑系列
坐忘峰 golang入坑系列读前必读: 本文写于20日，首发于gitbook. 迟到的是日期，没变的是内容。 […]...

展开目录

目录导航