数据分析-面板数据变截距模型
面板数据处理
变截距面板数据模型
变截距面板数据模型理论介绍
混合效应模型
背景思想
回归公式可以忽略个体与时间变化的差异,因此所有的数据特征可以通过一个公式进行刻画。进行数据的大杂烩、乱炖。为什么采取这么直接粗暴的方式呢?因为每个品种的菜(个体与时间维度)都很少,每一个品种的菜都不能够做出完整一盘菜,只能将所有的菜杂七杂八的混合起来乱炖。乱炖虽说精度不高,可是总比没法处理要好很多。
模型假定
1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\);
3. \(\varepsilon_{it}与X_{it}不相关\);
公式:
\(Y_{it}=\alpha + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\) |
\(\alpha\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
估计方法展示
数据结构展示:
估计方法:
这个模型是将所有的数据\((y,x_1,x_2,x_3,x_4)\),直接导入公式\(Y_{it}=\alpha + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)进行回归,只能求出一组\((\beta_{1},\beta_{2},..,\beta_{k})\’\),意味着\(\beta\)在不同个体、不同时点上都是同一组,它不会因为时间或个体而发生变动。
固定效应模型
背景思想
当你拥有蔬菜的品种足够多,你就可以依据他们的味道单独做一些小炒菜。有一些影响因素A随着一些条件的改变而改变,但是这个因素A并未通过\(X\)观测变量纳入模型,比如说我们研究消费函数,\(C = \alpha + \beta Y + \varepsilon\), 这里的\(\alpha\)叫做自发消费,这个自发性消费是可能和个人特征、所处的社会文化、教育等未观测变量有关,换句话说,截距项 \(\alpha\) 和个体某些未观测到的特质有关,而不和\(Y\)有关。\(\alpha\)和\(\varepsilon\)都是代表了不可观测因素的影响,前者的影响因素是有趋势的(常数也是一种趋势),后者的影响因素是无趋势的。更简单的理解就是,\(\alpha\)存在的意义就是为了使\(\varepsilon\)拥有零均值。
- 当这个截距项与个体特征相关时,我们称为个体固定效应模型。
- 当这个截距项与时间特征有关时,我们称为时间固定效应模型。
- 同理,和A潜在变量有关,我们就可以称它为A的固定效应模型。
- 当这个截距项与个体特征和时间特征都相关时,我们称为双固定效应模型。
- 同理,也可以同时依据三种或三种以上的变量进行分类,回归得出它们影响的截距项的估计值。
个体固定效应模型
模型假设
1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\);
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it}相关\)
5. \(E(\alpha_i)=0\)
模型公式
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\) |
\(\alpha_0\) | 常数项 |
\(\alpha_i\) | 个体效应 |
\(\alpha_0+\alpha_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
补充:也写为 | |
\(Y_{it}=u_i+ X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\) | |
\(u_i = \alpha_0 +\alpha_i, E(u_i)= \alpha_0,E(\alpha_i)=0\) |
估计方法展示
数据结构如下:
1.组内(within)估计(离差估计)
离差估计就是剔除常数项,然后进行估计,首先明白我们的目标:分别计算\(a,b,c,d,e\)组内的截距和各自的组内\(\beta\) .其实,不需要离差就可以回归。将a,b,c,d,e组的数据分别带入\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\),就可以得到结果。
-
离差方差推导
原方程:
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
求均值方程:
\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}\’ \beta + \bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)
离差变换(原方程减均值方程):
\(Y_{it}-\bar Y_{i}=\alpha_0 +\alpha_i -(\alpha_0 +\alpha_i)+ X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i}= X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(\bar Y_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(Y_{it})\)
\(\bar X_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(X_{it})\) -
带入离差数据求解,文字描述
通过\((y,x_1,x_2,x_3,x_4)\)计算组内时间上的均值\(\bar{(y,x_1,x_2,x_3,x_4)}\),然后计算离差\((y,x_1,x_2,x_3,x_4)- \bar{(y,x_1,x_2,x_3,x_4)}\),带入离差方程\(Y_{it}-\bar Y_{i}= X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)进行估计。 -
利用估计出的\(\beta\)带入均值方程\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}\’ \beta + \bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\),求解组内的(\(\alpha_0 +\alpha_i\))
-
通过上一步\(N\)个组的(\(\alpha_0 +\alpha_i\)),求解\(\alpha_0 = \frac{1}{N}\displaystyle\sum_{t=1}^N(\alpha_0 +\alpha_i)\),依据假设5:\(E(\alpha_i)=0\)
-
再求解\(\alpha_i = (\alpha_0 +\alpha_i) – \alpha_0\)
2.一阶差分估计
原理: 因为\(\alpha_0 +\alpha_i\)是不受时间影响的,所以我们可以使用差分方法消去常数项
- 差分方程推导
原方程:
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
上一期方程:
\(Y_{i,t-1}=\alpha_0 +\alpha_i + X_{i,t-1}\’ \beta + \varepsilon_{i,t-1},i = 1,2,3,…,N;t=1,2,3,…,T\)
原方程减上一期方程:
\(Y_{it}-Y_{i,t-1}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it}-\alpha_0 – \alpha_i – X_{i,t-1}\’ \beta – \varepsilon_{i.t-1} = X_{it}\’ \beta -X_{i,t-1}\’ \beta + \varepsilon_{it}- \varepsilon_{i,t-1}\) - 数据代入求解即可。
- 此方法无法求解截距项。
3.LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将个体差异以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D \alpha+X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_N
\end{pmatrix}\)
其中:
\(D_N=\begin{cases}
1 &\text{if } 为N组 \\
0 &\text{if } 不为N组
\end{cases}\)
时点固定效应模型
模型假设
1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\lambda_t 与X_{it}相关\);
模型公式
\(Y_{it}=\lambda_0 +\lambda_t + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\) |
\(\lambda_0\) | 常数项 |
\(\lambda_t\) | 时间效应 |
\(\lambda_0+\lambda_t\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
估计方法展示
数据结构如下:
LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D\lambda+X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_T
\end{pmatrix}\)
其中:
\(D_T=\begin{cases}
1 &\text{if } 为T时期 \\
0 &\text{if } 不为T时期
\end{cases}\)
个体时点固定效应模型
模型假设
1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_t 与X_{it}相关\);
5 \(\alpha_i 与X_{it}相关\);
6 \(E(\alpha_i)=0\);
7 \(E(\lambda_t)=0\);
这里我们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_t=\lambda_0+\lambda_t\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_t)=\lambda_0\);
模型公式
\(Y_{it}=(\alpha_0 +\lambda_0)+\alpha_i +\lambda_t + X_{it}\’ \beta + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i + \lambda_0 +\lambda_t + X_{it}\’ \beta + \varepsilon_{it}\)
\(=\tilde{\alpha}_i+\tilde{\lambda}_t+X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\) |
\(\lambda_0\) | 时间效应的常数项 |
\(\lambda_t\) | 时间效应 |
\(\alpha_0\) | 个体特征的常数项 |
\(\alpha_i\) | 个体效应 |
\(\alpha_0+\alpha_i+\lambda_0+\lambda_t\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
估计方法
数据结构展示:
LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。
-
估计方程形式:
\(Y = D_{\lambda}\lambda + D_\alpha\alpha+X\beta + \varepsilon\)
\(D_{\lambda}=\begin{pmatrix}
D_1 & D_2&D_3&…&D_T
\end{pmatrix}\)
其中:
\(D_T=\begin{cases}
1 &\text{if } 为T时期 \\
0 &\text{if } 不为T时期
\end{cases}\)
\(D_\alpha=\begin{pmatrix}
D_1 & D_2&D_3&…&D_N
\end{pmatrix}\)
其中:
\(D_N=\begin{cases}
1 &\text{if } 为N组 \\
0 &\text{if } 不为N组
\end{cases}\) -
也可以将时间与个体效应混合
\(Y = Dh + X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_{N*T}
\end{pmatrix}\)
其中:
\(D=\begin{cases}
1 &\text{if } 为第N个体的T时期 \\
0 &\text{if } 不为第N个体的T时期
\end{cases}\)
个体时点双固定效应,控制区域、行业等模型
模型假设
1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_t 与X_{it}相关\);
5 \(\alpha_i 与X_{it}相关\);
6 \(E(\alpha_i)=0\);
7 \(E(\lambda_t)=0\);
这里我们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_t=\lambda_0+\lambda_t\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_t)=\lambda_0\);
模型公式
\(Y_{it}=\tilde{\alpha}_i+\tilde{\lambda}_t+D_{type}\gamma+X_{it}\’ \beta + \varepsilon_{it},
i = 1,2,3,…,N;t=1,2,3,…,T\)
这个方程为了方便理解而设定,其中\(\tilde{\alpha}_i与D_{type}\)存在共线性问题,毕竟类型属性也是个体特征的一部分嘛!
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\) |
\(\lambda_0\) | 时间效应的常数项 |
\(\lambda_t\) | 时间效应 |
\(\alpha_0\) | 个体特征的常数项 |
\(\alpha_i\) | 个体效应 |
\(\alpha_0+\alpha_i+\lambda_0+\lambda_t\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
\(D_{type}\) | 类型的虚拟变量 |
估计方法展示
数据展示
估计方法:同上,将类型变量按照虚拟变量加入方程即可。
随机效应模型
背景思想:每组估计值的截距项的变动不与X的特征有关。
个体随机效应
模型假设
1.\(E(\varepsilon_{it})=0\);
2.\(var(\sigma_\varepsilon)为常数\);
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it},\varepsilon_{it}不相关\);
5. \(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);
公式:
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(=\alpha_0 + X_{it}\’ \beta +(\alpha_i+ \varepsilon_{it}),i = 1,2,3,…,N;t=1,2,3,…,T\)
\(=\alpha_0 + X_{it}\’ \beta + v_{it}, v_{it}=\alpha_i + \varepsilon_{it}, i = 1,2,3,…,N;t=1,2,3,…,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\) |
\(\alpha_0\) | 常数项 |
\(\alpha_i\) | 随机效应 |
\(\alpha_0+\alpha_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
\(v_{it}=\alpha_i + \varepsilon_{it}\) | 新的随机扰动项 |
根据\(v_{it}=\alpha_i + \varepsilon_{it}\);\(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);\(\alpha_i 与X_{it},\varepsilon_{it}不相关\);\(var(\varepsilon)=\sigma_\varepsilon为常数\)
推导:
\(cov(v_{it},v_{is})=cov(\alpha_i + \varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i + \varepsilon_{is})+cov(\varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i )+cov(\alpha_i ,\varepsilon_{is})+cov(\varepsilon_{it},\alpha_i )+ cov(\varepsilon_{it},\ \varepsilon_{is}) =\begin{cases}
\sigma_\alpha^2 &\text{if } t \neq s \\
\sigma_\alpha^2 + \sigma_\varepsilon &\text{if } t=s
\end{cases}\)
所以不满足古典假定,存在异方差与自相关问题。
估计方法展示
- 可行的广义最小二乘法(FGLS)
模型设定检验
F检验(chow\’s test)
原假设:混合回归模型
备择假设:其他模型
以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
原假设:\(u_1=u_2=…=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的\(RSS_r\)
备择假设:\(u_1,u_2,…,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的\(RSS_u\)
F统计量构造:
\(F=\cfrac{(RSS_r-RSS_u)/[(NT-k-1)-(NT-k-N)]}{RSS_u/(NT-k-N)} \thicksim F(N-1,NT-k-N)\)
项目 | 含义 |
---|---|
\(RSS_r\) | 有约束模型的残差平方和(混合模型,有约束) |
\(RSS_u\) | 无约束模型的残差平方和(变截距模型) |
\(k\) | 解释变量个数 |
LR检验
原假设:混合回归模型
备择假设:其他模型
以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
原假设:\(u_1=u_2=…=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_r)\)
备择假设:\(u_1,u_2,…,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_u)\)
LR统计量构造:
\(LR=-2(lnL_r-lnL_u)渐近服从\chi^2(约束条件的个数: N-1)\)
豪斯曼检验(Hauseman\’s test)
原假设:个体随机效应模型(个体效应与回归变量无关)
备择假设:个体固定效应模型(个体效应与回归变量有关)
检验的原理:
利用组内估计(within),无论是随机效应模型的参数估计值还是固定效应模型的参数估计值,估计参数值都是一致的
利用广义最小二乘法,对随机效应模型的参数估计值是一致的,对于随机效应模型的参数估计值是不一致的
真实模型 | 组内估计\(\hat\beta_w\) | 广义最小二乘法\(\tilde{\beta_{re}}\) |
---|---|---|
\(随机效应模型\) | 一致估计量 | 非一致估计量 |
\(固定效应模型\) | 一致估计量 | 一致估计量 |
检验逻辑图:
A[F检验 or LR检验] –不拒绝原假设,意味着截距项不变动–> B[使用混合回归]
A –拒绝原假设,意味着截距项变动–> C[豪斯曼检验]
C –不拒绝原假设–> D[选择个体随机效应模型]
C –拒绝原假设–> E[选择个体固定效应模型]
变截距面板数据模型建模步骤
A[输入数据]–>B[描述性统计分析]–>C[面板单位根检验]
C–数据非平稳–>D[面板协整分析]
C–数据平稳–>E[变截距检验] & F[变系数检验]
E[F检验 or LR检验] –不拒绝原假设,意味着截距项不变动–> G[使用混合回归]
E –拒绝原假设,意味着截距项变动–> H[豪斯曼检验]
H –不拒绝原假设–> L[选择个体随机效应模型]
H –拒绝原假设–> M[选择个体固定效应模型]