机器学习关于集成算法的两种基本思想

yaniesta 2018-12-04 原文

集成算法

把训练集分为B个（可重复），即bootstrap数据集，然后分别求出其中的beta值然后进行加权平均。如果每个子集的错误都是独立的，这种方法就可以减小误差。Variance一定减小。

在决策树方面，这种方法尤为有效。缺点是解释性降低。代表算法有random forest。

每一次的迭代都要在上一次的基础之上，而不是一次性完成所有的数据集分类。后一步的分类需要关注更多（权重更大）在那些前一步分类不正确的地方上面。最后根据权重来投票决出最终结果。代表算法有adaboost 以及现阶段最为有效的XGBboost和Lgboost

发表于 2018-12-04 11:19 Yaniesta 阅读(…) 评论(…) 编辑收藏

随机推荐

本周 Helm 官方发布博客，指导用户从 v2 迁移到 v3，这标志 Helm 逐渐走向成熟。早在今年 6 月 […]...

HDFS常用命令

（1）列出HDFS下的文件 hadoop dfs -ls <目录> （2）上传文件将 […]...

404...

css3+jquery制作3d旋转相册首先来看一下今天的炫酷效果：首先分析一下这张图片： 1.每张图片都有 […]...

IDEA上运行Flink任务

欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容：所有 […]...

Ubuntu12.04 安装网卡驱动

最近一直在给小朋友们装系统装驱动，来总结以下最近给ubuntu12.04安装过的网卡驱动，以及一些未解决的问题 […]...

UBUNTU中如何获得root权限

在终端中输入：sudo passwd root Enter new UNIX password: (在这输入你 […]...

HTTP完整请求过程

重要申明：感谢原文作者——沐风的心，想看原文请戳这里！我借鉴了原文的页面请求流程，原文见时序图之后正文。重要 […]...

机器学习关于集成算法的两种基本思想的更多相关文章