分类问题中训练数据类别不均衡怎么解决

gaoss 2018-09-19 原文

碰到样本数据类别不均衡怎么办？

如果有 10000个样例，做二分类，9990条数据都属于正类1，如果不处理的话预测全部结果为 1，准确率也为 99%，但这显然不是想要的结果。

碰到这样样本很不平衡的样例，应该怎样做。

前期数据准备

1. 欠采样

def down_sample(df):

    df1=df[df['label']==1] #正例

    df2=df[df['label']==0] ##负例

    df3=df2.sample(frac=0.25) ##抽负例

    return pd.concat([df1,df3],ignore_index=True)


对样本量很大的类，抽取更少的样本，达到样本平衡2.

2. 过采样

def up_sample(df):

    df1=df[df['label']==1] #正例

    df2=df[df['label']==0] ##负例

    df3=pd.concat([df1,df1,df1,df1,df1],ignore_index=True)
    return pd.concat([df2,df3],ignore_index=True)

对样本量偏少的数据，采用重复采样的策略

模型中调整调整权重

`很多分类模型都有设置权重的参数`

1. `xgboost 设置 : scale_pos_weight`

如做二分类，0/1， 0：1 = 1：100 可以设置scale_pos_weight=100

2. RF 设置： class_weight

可以指定, 但对于多分类问题需要注意：

For example, for four-class multilabel classification weights should be [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] instead of [{1:1}, {2:5}, {3:1}, {4:1}].
The “balanced” mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as n_samples / (n_classes * np.bincount(y))

得到结果后寻找最优阈值

调整threshold的值，得到最优结果

Threshold = 0.45

for j in range(len(preds)):
    if preds[j]>=Threshold :
        preds[j]=1
　　else :
　　　　preds[j]=0

评价指标：

使用准确度结果可能不准确。可以尝试 Confusion Matrix, Precision, Recall, Auc_Roc

本文链接：https://www.cnblogs.com/gaoss/p/9677466.html

分类问题中训练数据类别不均衡怎么解决的更多相关文章

machine learning 之 Neural Network 2

整理自Andrew Ng的machine learning 课程 week5. 目录： Neural netw […]...

模式识别笔记-集成学习之AdaBoost

目前集成学习(Ensemble Learning) 分为两类：个体学习器间存在强依赖关系、必须串行化生成的序 […]...

【翻译】Keras.NET简介 – 高级神经网络API in C#

Keras.NET是一个高级神经网络API，它使用C#编写，并带有Python绑定，可以在Tensorflow […]...

BERT模型详解

1 简介 BERT全称Bidirectional Enoceder Representations from […]...

Python机器学习（Python Machine Learning 中文版 PDF） Python机器学习介绍（Python Machine Learning 中文版）

Python机器学习介绍（Python Machine Learning 中文版）机器学习，如今最令人振奋的 […]...

《Playing hard exploration games by watching YouTube》论文解读

论文链接油管链接一、摘要当环境奖励特别稀疏的时候，强化学习方法通常很难训练(traditionall […]...

如何处理机器学习中的非均衡数据集？

在机器学习中，我们常常会遇到不均衡的数据集。比如癌症数据集中，癌症样本的数量可能远少于非癌症样本的数量；在银行 […]...

1.7 理解dropout

Dropout为什么有正则化的作用？下面来直观理解一下。上面讲到，dropout每次迭代都会让 […]...

随机推荐

前端js分页功能的实现，非常实用，新手必看

分享一个前端拿到数据后，自己生成分页的案例，案例如图显示，点击搜索后查询数据，显示数据列表，前端根据数据显 […]...

linux进程通信

linux常用进程通信方式包括管道（pipe）、有名管道（FIFO）、信号（signal）、消息队列、共享内存 […]...

JavaScript Math方法的基本使用

1.Math.sin()方法定义：返回一个数的正弦。语法：Math.sin(x),x必须是一个数值。实例 […]...

Android通过DeepLink方式跳转其他App传递参数

网上对于安卓DeepLink方式跳转传递参数的例子较少，说的也不客观，实践之后发现还是有一些坑。其实为什么 […]...

百万年薪python之路 — RBAC角色权限设计

RBAC（Role-Based Access Control，基于角色的访问控制），就是用户通过角色与权限进行 […]...

Mysql索引面试题

转载：https://mp.weixin.qq.com/s/_bk2JVOm2SkXfdcvki6-0w 本文 […]...

分享记录一批免费VIP视频解析接口，不定时更新！

VIP视频接口的作用相信大家都懂，那么，由于接口的维护、开发具有不稳定性，失效率很高。这里收集一些目前可用的接 […]...

Node.js socket 双向通信

Node.js socket 双向通信使用场景: 聊天室；大量数据常驻交互；技术栈： Node.js, […]...