对于分类型自变量与数值型因变量之间的关系,我们可以通过方差分析来研究;而对于数值型自变量和数值型因变量之间的关系,我们可以进行相关和回归分析。如果研究的是两个变量之间的关系,称为简单回归分析;如果研究的是两个以上变量之间的关系,称为多元回归分析。此外,按照关系的形态,也可以分为线性回归分析非线性回归分析

 

 

 

相关关系 

 

变量之间的关系

变量之间的关系可分为2种类型:函数关系和相关关系。函数关系是意义对应的关系,但在实际问题中,影响一个变量的因素非常多,造成了变量之间关系的不确定性。变量之间的不确定的数量关系,称为相关关系(correlation)。

 

相关关系的描述

在进行相关分析时,对总体有两个假定:

(1)两个变量之间是线性关系;

(2)两个变量都是随机变量。

散点图

相关关系的表现形态大体上分为线性相关非线性相关完全相关不相关,线性相关又分为正相关负相关

相关系数

相关系数是根据样本数据计算出的度量2个变量之间线性关系程度的统计量。如果是根据总体数据算出,称为总体相关系数($\rho$);如果不是根据样本数据算出的,称为样本相关系数($r$),也称线性相关系数或Pearson相关系数:

$$r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot \sqrt{n\sum y^2-(\sum y)^2}}$$

相关系数的性质如下:

(1)r的取值范围是[-1,1],0<r≤1,表明x与y存在正相关关系,-1<r≤0,表明x与y存在负相关关系;

(2)对称性,$r_{xy}=r_{yx}$;

(3)r的数值大小与x、y的原点、尺度无关;

(4)r仅能描述线性关系,不能用于非线性关系。r=0只能说明2个变量不存在线性相关关系,不能说明它们不相关,可能存在非线性相关关系;

(5)相关关系不代表因果关系;

根据经验,将|r|≥0.8视为高度相关,将0.5≤|r|≤0.8视为中度相关,将0.3≤|r|<0.5视为低度相关,将|r|<0.3视为不相关。

 

相关关系的显著性检验

总体相关系数$\rho$是未知的,可将样本相关系数r作为$\rho$的近似估计值,但由于抽样波动的影响,需要进行显著性检验(考察r的可靠性)。

r的抽样分布

当$\rho$为较大的正值时,r呈现左偏分布;当$\rho$为较大的负值时,r呈现右偏分布;当$\rho$接近0,样本量n很大时,才能认为r是接近正态分布的随机变量。

提出假设

$$H_0:\rho=0;H_1:\rho \neq0$$

检验统计量

由于假设r服从正态分布具有较大的风险,故使用t检验,既可以用于大样本,也可以用于小样本。

$$t=|r|\sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)$$

统计决策

如果$|t|>t_{(\alpha/2)}(n-2)$,则拒绝原假设,总体的两个变量之间存在显著的线性关系。

 

 

 

一元线性回归

相关分析的目的在于测量变量之间的关系强度(r),回归分析的目的是考察变量之间的数量关系,主要解决以下几个问题:

(1)利用一组样本数据,确定变量之间的数学关系式;

(2)对这些关系式的可信程度进行各种统计检验,找出哪些变量的影响是显著的,哪些是不显著的;

(3)利用关系式,根据一个或几个变量的取值来估计另一个变量的取值,并给出估计的可靠程度。

 

一元线性回归模型

回归模型

只涉及一个自变量的回归称为一元回归,描述两个具有线性关系的变量之间关系的方程称为回归模型,一元线性回归模型可表示为:

$$y=\beta_0+\beta_1x+\varepsilon$$

其中$\varepsilon$是被称为误差项的随机变量,反映了变量线性关系外的随机因素对y的影响。

上式称为理论回归模型,对它有以下假定:

(1)y与x之间具有线性关系;

(2)x是非随机的,在重复抽样中,x的取值是固定的;

以上2个假定表明,对于任何一个给定的x的值,y的取值都对应着一个分布,$E(y)=\beta_0+\beta_2x$代表一条直线。但由于单个y是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项$\varepsilon$。

(3)误差项$\varepsilon$是一个期望值为0的随机变量,因此,对于一个给定的x值,y的期望值$E(y)=\beta_0+\beta_2x$,实际上等于假定模型的形式是一条直线;

(4)对于所有的x,$\varepsilon$的方差$\sigma^2$都相同,这意味着对于一个给定的x值,y的方差都等于$\sigma^2$;

(5)误差项$\varepsilon$是一个服从正态分布的随机变量,且独立,即$\varepsilon \sim N(0,\sigma^2)$。一个特定的x值所对应的$\varepsilon$与其他x值对应的$\varepsilon$不相关。对于任何一个给定的x值,y都服从期望值为$\beta_0+\beta_1x$、方差为$\sigma^2$的正态分布,不同的x值,y的期望值不同,但方差相同。

回归方程

描述y的期望值如何依赖自变量x的方程称为回归方程,一元线性回归方程(误差项的期望值为0)的形式为:

$$E(y)=\beta_0+\beta_2x$$

估计的回归方程

总体回归参数$\beta_0$和$\beta_1$是未知的,需要用样本数据去估计。一元线性回归的估计的回归方程形式为:

$$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$$

 

参数的最小二乘估计

用最小化图中垂直方向的离差平方和来估计参数$\beta_0$和$\beta_1$,这一方法称为最小二乘法

 

回归直线的拟合优度

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度

变差

y的取值的波动称为变差,它来自两个方面:一是x的取值不同;二是除x以外的其它因素。一个具体的观测值的变差为$y-\bar{y}$,它可以分解为:

$$y-\bar{y}=(y-\hat{y})+(\hat{y}-\bar{y})$$

 

n次观测值的总变差称为总平方和(SST):

$$SST=\sum (y_i-\bar{y})$$

将上式平方,得

$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})$$

上式最后一项等于0,故

$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2$$

式中$\sum (y_i-\bar{y})^2$为总平方和(SST);$\sum (\hat{y}-\bar{y})^2$为回归平方和(SSR),它是可以由回归直线来解释的变差部分;$\sum (y_i-\hat{y})^2$为残差平方和(SSE),它是不能由回归直线来解释的变差部分。

判定系数

回归平方和占总平方和的比例称为判定系数($R^2$),它度量了估计的回归方程对观测数据的拟合程度。

$$R^2=\frac{SSR}{SST}=\frac{\sum (\hat{y}-\bar{y})^2}{\sum (y_i-\bar{y})^2}$$

$R^2$的取值范围是[0,1],越接近1,拟合程度越好。

一元线性回归中,相关系数r是$R^2$的平方根,r与回归系数$\hat{\beta_1}$的正负号相同。

估计标准误差

判断系数/相关系数可以度量回归直线的拟合程度,而残差平方和(SSE)可以说明实际观测值$y_i$与回归估计值$\hat{y_i}$之间的差异程度。估计标准误差($s_e$)是均方残差(MSE)的平方根,是度量观测点在直线周围散布状况的统计量:

$$s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{\sum (y_i-\hat{y_i})^2}{n-2}}$$

估计标准误差是对误差项$\varepsilon$的标准差的估计,可以看作是排除了线性关系后,y随机波动大小的估计量。对n个观测点拟合的所有直线中,估计标准误差最小的一条是回归直线。

 

显著性检验

由于估计方程是根据样本数据得到的,它是否能反映变量x和y的关系,还需要检验才能证实。

 

1.线性关系的检验

线性关系的显著性检验是检验x与y之间的线性关系是否显著,即能否用线性模型$y=\beta_0+\beta_1x+\varepsilon$描述二者的关系。

抽样分布

回归平方和(SSR)、残差平方和(SSE)的自由度分别为1(自变量个数k)、n-2(n-k-1),除以对应的自由度,得均方回归(MSR)、均方残差(MSE),在原假设$H_0$成立的情况下,MSR与MSE之比服从F分布:

$$F=\frac{MSR}{MSE} \sim F(1,n-2)$$

提出假设

$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$

检验统计量

$$F=\frac{MSR}{MSE}=\frac{MSR/1}{MSE/(n-2)}$$

统计决策

若$F>f_\alpha$,则拒绝$H_0$,两个变量之间具有显著的线性关系。若以P值进行判断,若小于$\alpha$,则拒绝原假设。

 

2.回归系数的检验

回归系数的显著性检验是检验x与y的影响是否显著,即检验一元线性回归模型$y=\beta_0+\beta_1x+\varepsilon$的回归系数$\beta_1$是否等于0,等于0则y不依赖于x。

抽样分布

由样本得到的回归方程为$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$,样本回归系数$\hat{\beta_1}$服从正态分布,数学期望为:

$$E(\hat{\beta_1})=\beta_1$$

标准差为:

$$\sigma_{\hat{\beta_1}}=\frac{\sigma}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$

由于$\sigma$未知,用其估计量$s_e$代替,则$\hat{\beta_1}$的估计的标准差为:

$$s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$

则构造出的统计量服从t分布:

$$t=\frac{\hat{\beta_1}-\beta_1}{s_{\hat{\beta_1}}} \sim t(n-2)$$

 

提出假设

$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$

检验统计量 

在原假设成立的情况下,$\beta_1=0$,则t统计量变为:

$$t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}$$

统计决策

若$|t|>t_{\alpha/2}$,则拒绝$H_0$,自变量x对因变量y的影响是显著的。同样,若$P-value<\alpha$,也拒绝$H_0$。

 

3.两个检验的讨论

在一元线性回归中,由于自变量只有一个,上述F检验和t检验是等价的。但在多元回归分析中,这两种检验的意义是不同的,F检验用于检验总体回归关系的显著性,t检验用检验各个回归系数的显著性

 

回归分析结果的评价

 

 

 

利用回归方程进行预测

所谓预测,就是通过自变量x的值来预测因变量y的取值。

 

点估计

利用估计的回归方程,求出y的一个估计值就是点估计,它分为平均值的点估计个别值的点估计

平均值的点估计是利用估计的回归方程,对x的一个特定值$x_0$。求出y的平均值的一个估计值$E(y_0)$。

个别值的点估计是利用估计的回归方程,对x的一个特定值$x_0$。求出y的一个个别值的估计值$\hat{y_0}$。

 

区间估计

利用估计的回归方程,对于x的一个特定值$x_0$,求出y的一个估计值的区间就是区间估计,它分为置信区间估计预测区间估计

y的平均值的置信区间估计

置信区间估计是对x的一个给定值$x_0$,求出y的平均值的估计区间,这一区间称为置信区间

$x=x_0$时,y的平均值(期望值)为$E(y_0)$,$E(y_0)$的估计值为

$$\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0$$

$\hat{y_0}$的标准差的估计量为:

$$s_{\hat{y_0}}=s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

则对于给定的$x_0$,$E(y_0)$在$1-\alpha$置信水平下的置信区间为:

$$\hat{y_0}±t{\alpha/2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

 

y的个别值的预测区间估计

预测区间估计是对x的一个给定值$x_0$,求出y的一个个别值的估计区间,这一区间称为预测区间

y的一个个别值$y_0$的标准差的估计量为:

$$s_{ind}=s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

则对于给定的$x_0$,y的一个个别值$y_0$在$1-\alpha$置信水平下的置信区间为:

 $$\hat{y_0}±t{\alpha/2}s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

预测区间要比置信区间宽一点。

 

在利用回归方差进行预测时,不要用样本数据之外的x值去预测。如果x的取值在$x_L\sim x_U$之间,可以用处于$x_L\sim x_U$之间的x来估计$E(y)$和预测$y$,但用$x_L\sim x_U$之外的x得出的估计值和预测值就会很不理想。

 

 

 

 

 

 

残差分析

回归方程$y=\beta_0+\beta_1x+\varepsilon$的假定之一是$\varepsilon \sim N(0,\sigma^2)$,且对所有的x,误差项的标准差都相同。假定如果不成立,后面的检验、估计、预测也就无从谈起。确定关于$\varepsilon$的假定是否成立,可以进行残差分析

 

残差

残差是因变量的观测值$y_i$与预测值$\hat{y_i}$之差,第i个观测值的残差为:

$$e_i=y_i-\hat{y_i}$$

 

残差图

可以通过分析残差图来判断对误差项$\varepsilon$的假设是否成立,残差图包括关于x的残差图、关于$\hat{y}$的残差图、标准化残差图等。关于x的残差图横轴为x的值,纵轴为残差$e_i=y_i-\hat{y_i}$。

如果对所有的x值,$\varepsilon$的方差都相等,则残差图中所有的点应落在一条水平带中间:

如果对所有x的值,$\varepsilon$的方差不同,较大的x值对应较大的残差,就违背了$\varepsilon$的方差相等的假设:

下图表明所选择的回归模型不合理,应考虑曲线回归或多元回归模型: 

 

标准化残差

标准化残差($z_e$)是残差除以它的标准差后得到的数值,也称为Pearson残差。第i个观察值的标准化残差为

$$z_e=\frac{e_i}{s_e}=\frac{y_i-\hat{y_i}}{s_e}$$

如果误差项$\varepsilon$服从正态分布这一假定成立,那么标准化残差的分布也应服从正态分布,在下面的标准化残差图中,大约有95%的标准化残差在$-2 \sim 2$之间,表明假定成立。

 

版权声明:本文为zm-pop-pk原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/zm-pop-pk/p/11466552.html