多元线性回归
在说明线性回归前,想先讲几个与线性回归密切相关的知识点。
一、散点图
散点图主要需要看四个方面,一是散点的疏密程度,越密表示相关性越大;二是看散点的趋势;三是看数据的主体模式在哪一部分;四是趋势之外的异常值分布在哪里(建模时考虑剔除)。在回归分析之前,需要先绘制变量间的散点图,以此判断各变量间是否为线性关系。
二、相关分析
相关分析是针对两个连续之间的相关程度和方向进行探究。一般在统计中相关分析只是作为回归分析的预分析,用于观察y与x两两之间相关情况,且主要是看它们之间的散点图,用于模型的确定。最常用的皮尔森相关系数公式如下,另外需注意相关分析的P值受样本n的影响,n越大,p值越显著,因而在数据挖掘的角度,P值的可信程度远远下降。
三、变量筛选
具体如下图,其中向前法首先用每一个x与y做回归,选取一个解释力度最高的X,选择的标准有很多包括R方最高,P最小,AIC/BIC最小。在选取第二个x时,把剩下的x一个个加入,选取那个使得残差平方和减少的最多,即解释力度最大,依次做下去,知道根据标准没有可添加的变量,这个标准要事先设定好,比如P值不能大于5%,当引入新变量每个都大于5%时,停止。这几个方法都只是作为参考,并不绝对。
四、多元回归
相关与回归有什么关系呢,相关分析侧重反映的是散点的疏密程度,而回归分析侧重反映散点的趋势情况。图1和图2相关系数相同但回归线不同,图3和图4相关系数不同,但回归线相同。
线性回归的基本过程如下图,与方差分析的思路十分类似。如果SSR=SSE则说明回归线解释的和误差解释的一样多,则说明回归线根本没有作用,因此对于回归分析,首先要F检验通过,才能谈R^2,R^2是说明模型拟合好到什么程度的,自变量一共能够解释因变量的百分之多少。
其实多元线性回归的难点在于其必须满足一系列的假设,①x和y线性关系。②y或者服从正态分布(x在样本已知的情况下是固定的,不属于随机变量)③服从均值为0方差固定的正态分布,即要求方差齐性针对假设(一般时间序列要考虑异方差问题,DW检验,在2左右最好)3与x不相关,即正交假定⑤之间不能共线性(共线性影响模型稳定性,方差膨胀因子检验)
由上面的假设可知,有三条都与残差密切相关,因而对于线性回归而言残差分析尤为关键,首先需要通过残差的直方图,观察残差是否符合正态分布,针对假设2。其次根据残差散点图观察残差是否在0上下波动,并且观察残差波动的宽度是否一致(一般超过3倍的最小宽度则视为异方差),针对假设3。最后借助残差图观看与是否有明显趋势,针对假设4。如果假设4不满足,即存在内生性问题,一般是最关键的主要问题,则需要引入新的自变量,或者使用两阶段最小二乘法2SLS。如果假设3不满足,即存在异方差问题,需要注意是否由于异常值的影响,应该去掉异常值(根据标准化残差值与界限2比较),如果不是异常值问题,使用权重估计WLS。如果假设2不满足,即不满足正态,需要进行对数处理、求根号、(x-中位数)/四分为距。如果不满足假设5,可能要考虑岭回归方法。两阶段最小二乘法2SLS、权重估计WLS、岭回归等都是多元线性回归衍生出来的回归方法,这里我就具体不写了,因为还得具体看计量的书籍才能写清楚了。对于满足所有假设,但仍然不满足T检验的变量,可以考虑删除。
下面是张文彤《SPSS统计分析高级教程》里提到的多元线性回归的具体步骤,讲的可能比我要清楚一点,我就贴在下面啦~