ML笔记：Where does the error come from?

cherrychenlee 2017-12-08 原文

error来自哪?

来自于偏差Bias和方差Variance.

就如打靶时瞄准一个点f平均,打出的点f星分布在该点周围.

该点与实际靶心f帽的距离就是偏差Bias,

打出的点与该点的分布距离就是方差Variance.

可将偏差理解为没瞄准,方差理解为瞄准了但是打得太散.

简单模型的方差小于复杂模型的方差.

因为简单模型比较集中,其权重W不太会受到data变化的影响,

可考虑极端例子f(x)=c,该模型方差为0.

简单模型的偏差大于复杂模型的偏差.

因为模型是个函数/假设集,定好模型后,function只能在里面挑选,

而简单模型的space小,很可能不包含f帽;复杂模型的space大,很可能包含f帽.

偏差大意味欠拟合,方差大意味过拟合

If your model cannot even fit the training examples, then you have large bias.

If you can fit the training data, but large error on testing data, then you probably have large variance.

For bias,redesign your model:

Add more features as input;

A more complex model.

For variance:

More data;(Very effective, but not always practical.给的数据不够,很难准确地找到目标假设.但实际操作中,数据往往没那么”充足”.)

Regularization.(限制||W||,较小/短的W意味着函数较平滑:输入变化,输出变化小.)—may increase bias

正则化可防止选模型时选出抖动得很厉害的模型,多数情况下,抖动得太厉害的function很可能不对.

function中常数项bias对function是否平滑无影响.

模型选择就是在方差和偏差之间寻找平衡.

但以下做法不推荐:

用训练数据训练出不同模型后,根据这些模型在测试数据上的表现好坏进行模型选择选出所谓的最佳模型,

该最佳模型往往在real的测试数据上表现得不好.—偷看了测试数据

推荐使用交叉验证.

将训练数据分为训练数据和验证数据2部分,通过验证数据选择模型.

这时,在public测试数据上的表现和在private测试数据上的表现差不多.

原则上,越少根据public测试数据上的结果去调整模型,public测试数据和private测试数据上的表现相差越少.

降低偶然性,可使用N折交叉验证.

posted on 2017-12-08 17:23 cherrychenlee 阅读(…) 评论(…) 编辑收藏

本文链接：http://www.cnblogs.com/cherrychenlee/p/8006369.html

ML笔记：Where does the error come from?的更多相关文章

机器学习算法 — Decision Trees Algorithms

一、Decision Trees Agorithms的简介　　决策树算法（Decision Trees A […]...

利用VGG19实现火灾分类(附tensorflow代码及训练集)

源码地址 https://github.com/stephen-v/tensorflow_vgg_classi […]...

万字长文，详解推荐系统领域经典模型FM因子分解机

在上一篇文章当中我们剖析了Facebook的著名论文GBDT+LR，虽然这篇paper在业内广受好评，但是毕竟 […]...

报错 ncclCommInitRank failed.

环境 4 GeForce GTX 1080 GPUS docker image nnabla/nnabla-e […]...

机器学习笔记(3) 随机森林

random forest 和 extra-trees是对decison tree做ensemble而得到最终 […]...

机器学习算法 – 决策树

机器学习算法 – 决策树 Posted on 2017-12-06 08:30 罗兵漂流记阅读( […]...

浅说机器学习理论

机器学习是现在在风口上。其包括一系列的具体算法，学习这些算法需要一定的数学基础（线性代数、概率论），网上有大量 […]...

ML.NET 示例：聚类之鸢尾花

写在前面准备近期将微软的machinelearning-samples翻译成中文，水平有限，如有错漏，请大家 […]...

随机推荐

机房搬迁方案

第1章设备迁移方案 1.1 迁移流程及顺序说明以上为系统迁移的流程图，各单位数据中心分系统均按该 […]...

centos中crontab（计时器）用法详解

关于crontab：　　crontab命令常见于Unix和类Unix的操作系统之中，用于设置周期性被执行的指 […]...

通过Java HTTP连接将网络图片下载到本地

通过Java HTTP连接将网络图片下载到本地只知道浏览器使用的是HTTP协议，那么如何将网络资源使 […]...

查看JAVA的class二进制文件的方法

hexdump -C filename可以查看二进制文件。比如java的Test.java public c […]...

【WPF】实现类似QQ聊天消息的界面

最近公司有个项目，是要求实现类似 QQ 聊天这种功能的。如下图这没啥难的，稍微复杂的也就表情的解析而已。 […]...

西瓜视频的生存手册：自媒体人的观查

西瓜视频的生存手册：自媒体人的观查 2016年5月，西瓜视频其前身，“视频头条”宣布发布。西瓜视频是巨量引 […]...

5个性能测试工具哪个更好用？对比结果新鲜出炉！

一、概述对应用系统来说数据库性能的好坏直接影响应用系统的性能，对于数据库进行性能测试能更加准确地分析识别数据 […]...

第五篇，理解模块化编程思想

模块化编程 ·模块化编程是一种处理复杂系统分解成更好的可管理模块的方式，它可以把系统代码划分为职责单一高度解耦 […]...

ML笔记：Where does the error come from?

ML笔记：Where does the error come from?的更多相关文章

随机推荐

热门专题

目录导航