Logistic回归小结

ffan 2021-11-14 原文


Logistic回归小结


1.梯度上升优化

1). 伪代码:

所有回归系数初始化为1——————-weights = ones((colNum,1))

重复r次:

  计算整个数据集的梯度gradient

  使用alpha*gradient更新回归系数的向量

  返回回归系数weights

2). 迭代r次的代码:

  

for k in range(r):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult

 

2.随机梯度上升

梯度上升算法每次更新回归系数都要遍历整个数据集(批处理),样本集数十亿时复杂度相当高。

一种改进方法是一次仅用一个样本点来更新回归系数(在线学习),该方法称为“随机梯度上升算法”。

1). 伪代码:

  所有回归系数初始化为1

  对数据集中每个样本:

    计算该样本梯度gradient

    使用alpha*gradient更新回归系数的向量

  返回回归系数weights

2). 用每个样本点更新回归系数代码:

for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        error = classLabels[i] - h
        weights = weights + alpha * error * dataMatrix[i]

 

3. 1与2比较:

1加载的是列表,用numpy.mat()转成矩阵计算,计算中是向量运算。2加载数据时就已通过numpy.array()转换列表数据为数组数据类型,计算中是数值运算。

 

4. 改进随机梯度上升

一种判断优化算法优劣的可靠方法是看它是否收敛,也就是说参数是否达到了稳定值,是否还会不断变化。

将2在整个数据集运行200次,绘制出X0,X1,X2三个回归系数的变化情况。发现1)系数2较快达到稳定值,2)大波动停止后,还有周期性小波动,原因是存在一些不能正确分类的样本点(数据及非线性可分),在每次迭代时引发系数剧烈改变。

期望改进:1)避免来回波动,从而收敛到某个值;2)加快收敛速度

改进随机梯度上升算法更新回归系数代码:

for j in range(numIter):
        dataIndex = range(m)
        for i in range(m):
            alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not 
            randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            error = classLabels[randIndex] - h
            weights = weights + alpha * error * dataMatrix[randIndex]
            del(dataIndex[randIndex])

 改进之处:

1)alpha = 4/(1.0+j+i)+0.0001,alpha在每次迭代中都会作调整,缓解数据波动或高频波动。alpha每次减少1/(j+i),j是迭代次数,i表示本次迭代中第i个选出来的样本,当j<<max(i)时,alpha就不是严格下降的。类似模拟退火等其他优化算法中避免参数严格下降。另alpha永远不会减小到0,因为存在常数项,保证在多次迭代后新数据仍有影响。如要处理的问题是动态变化,可适当加大上述常数项,确保新值获得更大回归系数。

2)通过随机选取样本更新回归系数,减小周期波动。这种方法每次随机从列表中选出一个值,然后从列表删除改值(再进行下次迭代)。

效果:与梯度上升分割数据效果差不多,但迭代次数远小于后者,前者20次,后者500次。另系数周期性波动有缓解。

 

5.画图

 Andrew Ng在Cousera ML课中用Octave绘制Decision Boundary,本节中用python matplot实现相同分隔线绘制。本节中还有参数在迭代中变化情况的绘制。

 

6.数据预处理

数据集来自UCI机器学习数据库http://archive.ics.uci.edu/ml/datasets/Horse+Colic。该数据集有的指标比较主观,有的难以测量(如疼痛程度等)。另数据集有30%数据缺失。

比较用Pandas,R,和Excel处理数据集中缺失值,Excel处理如此次数据量不大、结构不复杂的数据集较为方便。

用Excel将数据集保存为文本分隔文件,缺失值全部用0替换,NumPy数据类型不允许包含缺失值。选择0来替换,恰好适用于Logistic回归。回归系数更新公式如下:

weights = weights + alpha * error * dataMatrix[randIndex]

如果dataMatrix某个特征对应值为0,那么系数将不做更新。 

发表于
2014-06-02 16:05 
xiao dan feng 
阅读(1280
评论(1
编辑 
收藏 
举报

 

版权声明:本文为ffan原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/ffan/p/3764404.html

Logistic回归小结的更多相关文章

  1. 折腾:如何让你的老电脑快起来 – sting feng

    如何让你的老电脑快起来 好多年没升级电脑了。我现在在家里用的电脑是2003年买的IBM T40 (奔腾M 1. […]...

随机推荐

  1. 没有水果机的也来体验下Visual Studio for Mac

    在去年微软已经宣布.NET将实现真正的跨平台,并且发布了Mac和Linux版的Visual Studio Co […]...

  2. Linux 断网安装MySQL5.x操作步骤

    1.下载MySQL安装包 由于官网下载比较慢,暂时我这边采用的方法是通过网易云的centos镜像下载的地址是 […]...

  3. 喵喵的华为DevCloud使用指南(1) – 卡哇伊大喵

    喵喵的华为DevCloud使用指南(1) B站链接https://www.bilibili.com/read/ […]...

  4. centos7安装Lnmp(Linux+Nginx+MySql+Php+phpMyAdmin+Apache)

    centos7安装Lnmp(Linux+Nginx+MySql+Php)及Apache   Nginx是俄罗斯 […]...

  5. cola-ui的使用

    目录 产品简介 开始 组成结构 表单相关 表格相关 面板Panel 相关 其它 官方:http://www.c […]...

  6. C# 调用NPOI 修改Excel 完成实时更新公式结果

    C# 调用NPOI,修改EXCEL中的数据后并保存后,不会对公式进行更新操作。打开Excel表需要更新一下公式 […]...

  7. 老男孩Python全栈开发(92天全)视频教程 自学笔记04

    老男孩Python全栈开发(92天全)视频教程 自学笔记04 day4课程目录: 逻辑运算符 while循环 […]...

  8. Python中元类

    元类(metaclass) 简单地说,元类就是一个能创建类的类,而类class 是由type创建的,class […]...

展开目录

目录导航