一元线性回归
对于分类型自变量与数值型因变量之间的关系,我们可以通过方差分析来研究;而对于数值型自变量和数值型因变量之间的关系,我们可以进行相关和回归分析。如果研究的是两个变量之间的关系,称为简单回归分析;如果研究的是两个以上变量之间的关系,称为多元回归分析。此外,按照关系的形态,也可以分为线性回归分析与非线性回归分析。
相关关系
变量之间的关系
变量之间的关系可分为2种类型:函数关系和相关关系。函数关系是意义对应的关系,但在实际问题中,影响一个变量的因素非常多,造成了变量之间关系的不确定性。变量之间的不确定的数量关系,称为相关关系(correlation)。
相关关系的描述
在进行相关分析时,对总体有两个假定:
(1)两个变量之间是线性关系;
(2)两个变量都是随机变量。
散点图
相关关系的表现形态大体上分为线性相关、非线性相关、完全相关、不相关,线性相关又分为正相关和负相关。
相关系数
相关系数是根据样本数据计算出的度量2个变量之间线性关系程度的统计量。如果是根据总体数据算出,称为总体相关系数($\rho$);如果不是根据样本数据算出的,称为样本相关系数($r$),也称线性相关系数或Pearson相关系数:
$$r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot \sqrt{n\sum y^2-(\sum y)^2}}$$
相关系数的性质如下:
(1)r的取值范围是[-1,1],0<r≤1,表明x与y存在正相关关系,-1<r≤0,表明x与y存在负相关关系;
(2)对称性,$r_{xy}=r_{yx}$;
(3)r的数值大小与x、y的原点、尺度无关;
(4)r仅能描述线性关系,不能用于非线性关系。r=0只能说明2个变量不存在线性相关关系,不能说明它们不相关,可能存在非线性相关关系;
(5)相关关系不代表因果关系;
根据经验,将|r|≥0.8视为高度相关,将0.5≤|r|≤0.8视为中度相关,将0.3≤|r|<0.5视为低度相关,将|r|<0.3视为不相关。
相关关系的显著性检验
总体相关系数$\rho$是未知的,可将样本相关系数r作为$\rho$的近似估计值,但由于抽样波动的影响,需要进行显著性检验(考察r的可靠性)。
r的抽样分布
当$\rho$为较大的正值时,r呈现左偏分布;当$\rho$为较大的负值时,r呈现右偏分布;当$\rho$接近0,样本量n很大时,才能认为r是接近正态分布的随机变量。
提出假设
$$H_0:\rho=0;H_1:\rho \neq0$$
检验统计量
由于假设r服从正态分布具有较大的风险,故使用t检验,既可以用于大样本,也可以用于小样本。
$$t=|r|\sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)$$
统计决策
如果$|t|>t_{(\alpha/2)}(n-2)$,则拒绝原假设,总体的两个变量之间存在显著的线性关系。
一元线性回归
相关分析的目的在于测量变量之间的关系强度(r),回归分析的目的是考察变量之间的数量关系,主要解决以下几个问题:
(1)利用一组样本数据,确定变量之间的数学关系式;
(2)对这些关系式的可信程度进行各种统计检验,找出哪些变量的影响是显著的,哪些是不显著的;
(3)利用关系式,根据一个或几个变量的取值来估计另一个变量的取值,并给出估计的可靠程度。
一元线性回归模型
回归模型
只涉及一个自变量的回归称为一元回归,描述两个具有线性关系的变量之间关系的方程称为回归模型,一元线性回归模型可表示为:
$$y=\beta_0+\beta_1x+\varepsilon$$
其中$\varepsilon$是被称为误差项的随机变量,反映了变量线性关系外的随机因素对y的影响。
上式称为理论回归模型,对它有以下假定:
(1)y与x之间具有线性关系;
(2)x是非随机的,在重复抽样中,x的取值是固定的;
以上2个假定表明,对于任何一个给定的x的值,y的取值都对应着一个分布,$E(y)=\beta_0+\beta_2x$代表一条直线。但由于单个y是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项$\varepsilon$。
(3)误差项$\varepsilon$是一个期望值为0的随机变量,因此,对于一个给定的x值,y的期望值$E(y)=\beta_0+\beta_2x$,实际上等于假定模型的形式是一条直线;
(4)对于所有的x,$\varepsilon$的方差$\sigma^2$都相同,这意味着对于一个给定的x值,y的方差都等于$\sigma^2$;
(5)误差项$\varepsilon$是一个服从正态分布的随机变量,且独立,即$\varepsilon \sim N(0,\sigma^2)$。一个特定的x值所对应的$\varepsilon$与其他x值对应的$\varepsilon$不相关。对于任何一个给定的x值,y都服从期望值为$\beta_0+\beta_1x$、方差为$\sigma^2$的正态分布,不同的x值,y的期望值不同,但方差相同。
回归方程
描述y的期望值如何依赖自变量x的方程称为回归方程,一元线性回归方程(误差项的期望值为0)的形式为:
$$E(y)=\beta_0+\beta_2x$$
估计的回归方程
总体回归参数$\beta_0$和$\beta_1$是未知的,需要用样本数据去估计。一元线性回归的估计的回归方程形式为:
$$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$$
参数的最小二乘估计
用最小化图中垂直方向的离差平方和来估计参数$\beta_0$和$\beta_1$,这一方法称为最小二乘法。
回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。
变差
y的取值的波动称为变差,它来自两个方面:一是x的取值不同;二是除x以外的其它因素。一个具体的观测值的变差为$y-\bar{y}$,它可以分解为:
$$y-\bar{y}=(y-\hat{y})+(\hat{y}-\bar{y})$$
n次观测值的总变差称为总平方和(SST):
$$SST=\sum (y_i-\bar{y})$$
将上式平方,得
$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})$$
上式最后一项等于0,故
$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2$$
式中$\sum (y_i-\bar{y})^2$为总平方和(SST);$\sum (\hat{y}-\bar{y})^2$为回归平方和(SSR),它是可以由回归直线来解释的变差部分;$\sum (y_i-\hat{y})^2$为残差平方和(SSE),它是不能由回归直线来解释的变差部分。
判定系数
回归平方和占总平方和的比例称为判定系数($R^2$),它度量了估计的回归方程对观测数据的拟合程度。
$$R^2=\frac{SSR}{SST}=\frac{\sum (\hat{y}-\bar{y})^2}{\sum (y_i-\bar{y})^2}$$
$R^2$的取值范围是[0,1],越接近1,拟合程度越好。
一元线性回归中,相关系数r是$R^2$的平方根,r与回归系数$\hat{\beta_1}$的正负号相同。
估计标准误差
判断系数/相关系数可以度量回归直线的拟合程度,而残差平方和(SSE)可以说明实际观测值$y_i$与回归估计值$\hat{y_i}$之间的差异程度。估计标准误差($s_e$)是均方残差(MSE)的平方根,是度量观测点在直线周围散布状况的统计量:
$$s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{\sum (y_i-\hat{y_i})^2}{n-2}}$$
估计标准误差是对误差项$\varepsilon$的标准差的估计,可以看作是排除了线性关系后,y随机波动大小的估计量。对n个观测点拟合的所有直线中,估计标准误差最小的一条是回归直线。
显著性检验
由于估计方程是根据样本数据得到的,它是否能反映变量x和y的关系,还需要检验才能证实。
1.线性关系的检验
线性关系的显著性检验是检验x与y之间的线性关系是否显著,即能否用线性模型$y=\beta_0+\beta_1x+\varepsilon$描述二者的关系。
抽样分布
回归平方和(SSR)、残差平方和(SSE)的自由度分别为1(自变量个数k)、n-2(n-k-1),除以对应的自由度,得均方回归(MSR)、均方残差(MSE),在原假设$H_0$成立的情况下,MSR与MSE之比服从F分布:
$$F=\frac{MSR}{MSE} \sim F(1,n-2)$$
提出假设
$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$
检验统计量
$$F=\frac{MSR}{MSE}=\frac{MSR/1}{MSE/(n-2)}$$
统计决策
若$F>f_\alpha$,则拒绝$H_0$,两个变量之间具有显著的线性关系。若以P值进行判断,若小于$\alpha$,则拒绝原假设。
2.回归系数的检验
回归系数的显著性检验是检验x与y的影响是否显著,即检验一元线性回归模型$y=\beta_0+\beta_1x+\varepsilon$的回归系数$\beta_1$是否等于0,等于0则y不依赖于x。
抽样分布
由样本得到的回归方程为$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$,样本回归系数$\hat{\beta_1}$服从正态分布,数学期望为:
$$E(\hat{\beta_1})=\beta_1$$
标准差为:
$$\sigma_{\hat{\beta_1}}=\frac{\sigma}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$
由于$\sigma$未知,用其估计量$s_e$代替,则$\hat{\beta_1}$的估计的标准差为:
$$s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$
则构造出的统计量服从t分布:
$$t=\frac{\hat{\beta_1}-\beta_1}{s_{\hat{\beta_1}}} \sim t(n-2)$$
提出假设
$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$
检验统计量
在原假设成立的情况下,$\beta_1=0$,则t统计量变为:
$$t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}$$
统计决策
若$|t|>t_{\alpha/2}$,则拒绝$H_0$,自变量x对因变量y的影响是显著的。同样,若$P-value<\alpha$,也拒绝$H_0$。
3.两个检验的讨论
在一元线性回归中,由于自变量只有一个,上述F检验和t检验是等价的。但在多元回归分析中,这两种检验的意义是不同的,F检验用于检验总体回归关系的显著性,t检验用检验各个回归系数的显著性。
回归分析结果的评价
利用回归方程进行预测
所谓预测,就是通过自变量x的值来预测因变量y的取值。
点估计
利用估计的回归方程,求出y的一个估计值就是点估计,它分为平均值的点估计和个别值的点估计。
平均值的点估计是利用估计的回归方程,对x的一个特定值$x_0$。求出y的平均值的一个估计值$E(y_0)$。
个别值的点估计是利用估计的回归方程,对x的一个特定值$x_0$。求出y的一个个别值的估计值$\hat{y_0}$。
区间估计
利用估计的回归方程,对于x的一个特定值$x_0$,求出y的一个估计值的区间就是区间估计,它分为置信区间估计和预测区间估计。
y的平均值的置信区间估计
置信区间估计是对x的一个给定值$x_0$,求出y的平均值的估计区间,这一区间称为置信区间。
$x=x_0$时,y的平均值(期望值)为$E(y_0)$,$E(y_0)$的估计值为
$$\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0$$
$\hat{y_0}$的标准差的估计量为:
$$s_{\hat{y_0}}=s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
则对于给定的$x_0$,$E(y_0)$在$1-\alpha$置信水平下的置信区间为:
$$\hat{y_0}±t{\alpha/2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
y的个别值的预测区间估计
预测区间估计是对x的一个给定值$x_0$,求出y的一个个别值的估计区间,这一区间称为预测区间。
y的一个个别值$y_0$的标准差的估计量为:
$$s_{ind}=s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
则对于给定的$x_0$,y的一个个别值$y_0$在$1-\alpha$置信水平下的置信区间为:
$$\hat{y_0}±t{\alpha/2}s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
预测区间要比置信区间宽一点。
在利用回归方差进行预测时,不要用样本数据之外的x值去预测。如果x的取值在$x_L\sim x_U$之间,可以用处于$x_L\sim x_U$之间的x来估计$E(y)$和预测$y$,但用$x_L\sim x_U$之外的x得出的估计值和预测值就会很不理想。
残差分析
回归方程$y=\beta_0+\beta_1x+\varepsilon$的假定之一是$\varepsilon \sim N(0,\sigma^2)$,且对所有的x,误差项的标准差都相同。假定如果不成立,后面的检验、估计、预测也就无从谈起。确定关于$\varepsilon$的假定是否成立,可以进行残差分析。
残差
残差是因变量的观测值$y_i$与预测值$\hat{y_i}$之差,第i个观测值的残差为:
$$e_i=y_i-\hat{y_i}$$
残差图
可以通过分析残差图来判断对误差项$\varepsilon$的假设是否成立,残差图包括关于x的残差图、关于$\hat{y}$的残差图、标准化残差图等。关于x的残差图横轴为x的值,纵轴为残差$e_i=y_i-\hat{y_i}$。
如果对所有的x值,$\varepsilon$的方差都相等,则残差图中所有的点应落在一条水平带中间:
如果对所有x的值,$\varepsilon$的方差不同,较大的x值对应较大的残差,就违背了$\varepsilon$的方差相等的假设:
下图表明所选择的回归模型不合理,应考虑曲线回归或多元回归模型:
标准化残差
标准化残差($z_e$)是残差除以它的标准差后得到的数值,也称为Pearson残差。第i个观察值的标准化残差为
$$z_e=\frac{e_i}{s_e}=\frac{y_i-\hat{y_i}}{s_e}$$
如果误差项$\varepsilon$服从正态分布这一假定成立,那么标准化残差的分布也应服从正态分布,在下面的标准化残差图中,大约有95%的标准化残差在$-2 \sim 2$之间,表明假定成立。