面板数据处理

变截距面板数据模型

变截距面板数据模型理论介绍

混合效应模型

背景思想

回归公式可以忽略个体与时间变化的差异,因此所有的数据特征可以通过一个公式进行刻画。进行数据的大杂烩、乱炖。为什么采取这么直接粗暴的方式呢?因为每个品种的菜(个体与时间维度)都很少,每一个品种的菜都不能够做出完整一盘菜,只能将所有的菜杂七杂八的混合起来乱炖。乱炖虽说精度不高,可是总比没法处理要好很多。

模型假定

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3. \(\varepsilon_{it}与X_{it}不相关\);

公式:

\(Y_{it}=\alpha + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目 含义
\(i\) 个体标志序数
\(t\) 时间序数
\(X_{it}\) 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\) 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\alpha\) 截距项
\(\varepsilon_{it}\) 随机扰动项

估计方法展示

数据结构展示:

估计方法:

这个模型是将所有的数据\((y,x_1,x_2,x_3,x_4)\)直接导入公式\(Y_{it}=\alpha + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)进行回归,只能求出一组\((\beta_{1},\beta_{2},..,\beta_{k})\’\),意味着\(\beta\)在不同个体、不同时点上都是同一组,它不会因为时间或个体而发生变动。

固定效应模型

背景思想

当你拥有蔬菜的品种足够多,你就可以依据他们的味道单独做一些小炒菜。有一些影响因素A随着一些条件的改变而改变,但是这个因素A并未通过\(X\)观测变量纳入模型,比如说我们研究消费函数,\(C = \alpha + \beta Y + \varepsilon\), 这里的\(\alpha\)叫做自发消费,这个自发性消费是可能和个人特征、所处的社会文化、教育等未观测变量有关,换句话说,截距项 \(\alpha\) 和个体某些未观测到的特质有关,而不和\(Y\)有关。\(\alpha\)\(\varepsilon\)都是代表了不可观测因素的影响,前者的影响因素是有趋势的(常数也是一种趋势),后者的影响因素是无趋势的。更简单的理解就是,\(\alpha\)存在的意义就是为了使\(\varepsilon\)拥有零均值。

  • 当这个截距项与个体特征相关时,我们称为个体固定效应模型。
  • 当这个截距项与时间特征有关时,我们称为时间固定效应模型。
  • 同理,和A潜在变量有关,我们就可以称它为A的固定效应模型。
  • 当这个截距项与个体特征和时间特征都相关时,我们称为双固定效应模型。
  • 同理,也可以同时依据三种或三种以上的变量进行分类,回归得出它们影响的截距项的估计值。

个体固定效应模型

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it}相关\)
5. \(E(\alpha_i)=0\)

模型公式

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目 含义
\(i\) 个体标志序数
\(t\) 时间序数
\(X_{it}\) 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\) 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\alpha_0\) 常数项
\(\alpha_i\) 个体效应
\(\alpha_0+\alpha_i\) 截距项
\(\varepsilon_{it}\) 随机扰动项
补充:也写为
\(Y_{it}=u_i+ X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(u_i = \alpha_0 +\alpha_i, E(u_i)= \alpha_0,E(\alpha_i)=0\)
估计方法展示

数据结构如下:

1.组内(within)估计(离差估计)
离差估计就是剔除常数项,然后进行估计,首先明白我们的目标:分别计算\(a,b,c,d,e\)组内的截距和各自的组内\(\beta\) .其实,不需要离差就可以回归。将a,b,c,d,e组的数据分别带入\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\),就可以得到结果。

  • 离差方差推导
    原方程:
    \(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
    求均值方程:
    \(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}\’ \beta + \bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)
    离差变换(原方程减均值方程):
    \(Y_{it}-\bar Y_{i}=\alpha_0 +\alpha_i -(\alpha_0 +\alpha_i)+ X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i}= X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)
    \(\bar Y_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(Y_{it})\)
    \(\bar X_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(X_{it})\)

  • 带入离差数据求解,文字描述
    通过\((y,x_1,x_2,x_3,x_4)\)计算组内时间上的均值\(\bar{(y,x_1,x_2,x_3,x_4)}\),然后计算离差\((y,x_1,x_2,x_3,x_4)- \bar{(y,x_1,x_2,x_3,x_4)}\),带入离差方程\(Y_{it}-\bar Y_{i}= X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)进行估计。

  • 利用估计出的\(\beta\)带入均值方程\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}\’ \beta + \bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\),求解组内的(\(\alpha_0 +\alpha_i\))

  • 通过上一步\(N\)个组的(\(\alpha_0 +\alpha_i\)),求解\(\alpha_0 = \frac{1}{N}\displaystyle\sum_{t=1}^N(\alpha_0 +\alpha_i)\),依据假设5:\(E(\alpha_i)=0\)

  • 再求解\(\alpha_i = (\alpha_0 +\alpha_i) – \alpha_0\)

2.一阶差分估计
原理: 因为\(\alpha_0 +\alpha_i\)是不受时间影响的,所以我们可以使用差分方法消去常数项

  • 差分方程推导
    原方程:
    \(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
    上一期方程:
    \(Y_{i,t-1}=\alpha_0 +\alpha_i + X_{i,t-1}\’ \beta + \varepsilon_{i,t-1},i = 1,2,3,…,N;t=1,2,3,…,T\)
    原方程减上一期方程:
    \(Y_{it}-Y_{i,t-1}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it}-\alpha_0 – \alpha_i – X_{i,t-1}\’ \beta – \varepsilon_{i.t-1} = X_{it}\’ \beta -X_{i,t-1}\’ \beta + \varepsilon_{it}- \varepsilon_{i,t-1}\)
  • 数据代入求解即可。
  • 此方法无法求解截距项。

3.LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将个体差异以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D \alpha+X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_N
\end{pmatrix}\)

其中:
\(D_N=\begin{cases}
1 &\text{if } 为N组 \\
0 &\text{if } 不为N组
\end{cases}\)

时点固定效应模型

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\lambda_t 与X_{it}相关\)

模型公式

\(Y_{it}=\lambda_0 +\lambda_t + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目 含义
\(i\) 个体标志序数
\(t\) 时间序数
\(X_{it}\) 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\) 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\lambda_0\) 常数项
\(\lambda_t\) 时间效应
\(\lambda_0+\lambda_t\) 截距项
\(\varepsilon_{it}\) 随机扰动项
估计方法展示

数据结构如下:

LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D\lambda+X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_T
\end{pmatrix}\)

其中:
\(D_T=\begin{cases}
1 &\text{if } 为T时期 \\
0 &\text{if } 不为T时期
\end{cases}\)

个体时点固定效应模型

模型假设

1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_t 与X_{it}相关\)
5 \(\alpha_i 与X_{it}相关\)
6 \(E(\alpha_i)=0\)
7 \(E(\lambda_t)=0\)

这里我们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_t=\lambda_0+\lambda_t\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_t)=\lambda_0\);

模型公式

\(Y_{it}=(\alpha_0 +\lambda_0)+\alpha_i +\lambda_t + X_{it}\’ \beta + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i + \lambda_0 +\lambda_t + X_{it}\’ \beta + \varepsilon_{it}\)
\(=\tilde{\alpha}_i+\tilde{\lambda}_t+X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目 含义
\(i\) 个体标志序数
\(t\) 时间序数
\(X_{it}\) 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\) 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\lambda_0\) 时间效应的常数项
\(\lambda_t\) 时间效应
\(\alpha_0\) 个体特征的常数项
\(\alpha_i\) 个体效应
\(\alpha_0+\alpha_i+\lambda_0+\lambda_t\) 截距项
\(\varepsilon_{it}\) 随机扰动项
估计方法

数据结构展示:

LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。

  • 估计方程形式:
    \(Y = D_{\lambda}\lambda + D_\alpha\alpha+X\beta + \varepsilon\)
    \(D_{\lambda}=\begin{pmatrix}
    D_1 & D_2&D_3&…&D_T
    \end{pmatrix}\)

    其中:
    \(D_T=\begin{cases}
    1 &\text{if } 为T时期 \\
    0 &\text{if } 不为T时期
    \end{cases}\)

    \(D_\alpha=\begin{pmatrix}
    D_1 & D_2&D_3&…&D_N
    \end{pmatrix}\)

    其中:
    \(D_N=\begin{cases}
    1 &\text{if } 为N组 \\
    0 &\text{if } 不为N组
    \end{cases}\)

  • 也可以将时间与个体效应混合
    \(Y = Dh + X\beta + \varepsilon\)
    \(D=\begin{pmatrix}
    D_1 & D_2&D_3&…&D_{N*T}
    \end{pmatrix}\)

    其中:
    \(D=\begin{cases}
    1 &\text{if } 为第N个体的T时期 \\
    0 &\text{if } 不为第N个体的T时期
    \end{cases}\)

个体时点双固定效应,控制区域、行业等模型

模型假设

1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_t 与X_{it}相关\)
5 \(\alpha_i 与X_{it}相关\)
6 \(E(\alpha_i)=0\)
7 \(E(\lambda_t)=0\)

这里我们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_t=\lambda_0+\lambda_t\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_t)=\lambda_0\);

模型公式

\(Y_{it}=\tilde{\alpha}_i+\tilde{\lambda}_t+D_{type}\gamma+X_{it}\’ \beta + \varepsilon_{it},
i = 1,2,3,…,N;t=1,2,3,…,T\)

这个方程为了方便理解而设定,其中\(\tilde{\alpha}_i与D_{type}\)存在共线性问题,毕竟类型属性也是个体特征的一部分嘛!

项目 含义
\(i\) 个体标志序数
\(t\) 时间序数
\(X_{it}\) 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\) 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\lambda_0\) 时间效应的常数项
\(\lambda_t\) 时间效应
\(\alpha_0\) 个体特征的常数项
\(\alpha_i\) 个体效应
\(\alpha_0+\alpha_i+\lambda_0+\lambda_t\) 截距项
\(\varepsilon_{it}\) 随机扰动项
\(D_{type}\) 类型的虚拟变量
估计方法展示

数据展示

估计方法:同上,将类型变量按照虚拟变量加入方程即可。

随机效应模型

背景思想:每组估计值的截距项的变动不与X的特征有关。

个体随机效应

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\sigma_\varepsilon)为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it},\varepsilon_{it}不相关\);
5. \(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);

公式:

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(=\alpha_0 + X_{it}\’ \beta +(\alpha_i+ \varepsilon_{it}),i = 1,2,3,…,N;t=1,2,3,…,T\)
\(=\alpha_0 + X_{it}\’ \beta + v_{it}, v_{it}=\alpha_i + \varepsilon_{it}, i = 1,2,3,…,N;t=1,2,3,…,T\)

项目 含义
\(i\) 个体标志序数
\(t\) 时间序数
\(X_{it}\) 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\) 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\alpha_0\) 常数项
\(\alpha_i\) 随机效应
\(\alpha_0+\alpha_i\) 截距项
\(\varepsilon_{it}\) 随机扰动项
\(v_{it}=\alpha_i + \varepsilon_{it}\) 新的随机扰动项

根据\(v_{it}=\alpha_i + \varepsilon_{it}\)\(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);\(\alpha_i 与X_{it},\varepsilon_{it}不相关\);\(var(\varepsilon)=\sigma_\varepsilon为常数\)
推导:
\(cov(v_{it},v_{is})=cov(\alpha_i + \varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i + \varepsilon_{is})+cov(\varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i )+cov(\alpha_i ,\varepsilon_{is})+cov(\varepsilon_{it},\alpha_i )+ cov(\varepsilon_{it},\ \varepsilon_{is}) =\begin{cases}
\sigma_\alpha^2 &\text{if } t \neq s \\
\sigma_\alpha^2 + \sigma_\varepsilon &\text{if } t=s
\end{cases}\)

所以不满足古典假定,存在异方差与自相关问题。

估计方法展示
  • 可行的广义最小二乘法(FGLS)

模型设定检验

F检验(chow\’s test)

原假设:混合回归模型
备择假设:其他模型

以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)

原假设:\(u_1=u_2=…=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的\(RSS_r\)
备择假设:\(u_1,u_2,…,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的\(RSS_u\)

F统计量构造:
\(F=\cfrac{(RSS_r-RSS_u)/[(NT-k-1)-(NT-k-N)]}{RSS_u/(NT-k-N)} \thicksim F(N-1,NT-k-N)\)

项目 含义
\(RSS_r\) 有约束模型的残差平方和(混合模型,有约束)
\(RSS_u\) 无约束模型的残差平方和(变截距模型)
\(k\) 解释变量个数

LR检验

原假设:混合回归模型
备择假设:其他模型

以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)

原假设:\(u_1=u_2=…=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_r)\)
备择假设:\(u_1,u_2,…,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_u)\)

LR统计量构造:
\(LR=-2(lnL_r-lnL_u)渐近服从\chi^2(约束条件的个数: N-1)\)

豪斯曼检验(Hauseman\’s test)

原假设:个体随机效应模型(个体效应与回归变量无关)
备择假设:个体固定效应模型(个体效应与回归变量有关)

检验的原理:
利用组内估计(within),无论是随机效应模型的参数估计值还是固定效应模型的参数估计值,估计参数值都是一致的
利用广义最小二乘法,对随机效应模型的参数估计值是一致的,对于随机效应模型的参数估计值是不一致的

真实模型 组内估计\(\hat\beta_w\) 广义最小二乘法\(\tilde{\beta_{re}}\)
\(随机效应模型\) 一致估计量 非一致估计量
\(固定效应模型\) 一致估计量 一致估计量

检验逻辑图:

graph LR
A[F检验 or LR检验] –不拒绝原假设,意味着截距项不变动–> B[使用混合回归]
A –拒绝原假设,意味着截距项变动–> C[豪斯曼检验]
C –不拒绝原假设–> D[选择个体随机效应模型]
C –拒绝原假设–> E[选择个体固定效应模型]

变截距面板数据模型建模步骤

graph LR
A[输入数据]–>B[描述性统计分析]–>C[面板单位根检验]
C–数据非平稳–>D[面板协整分析]
C–数据平稳–>E[变截距检验] & F[变系数检验]
E[F检验 or LR检验] –不拒绝原假设,意味着截距项不变动–> G[使用混合回归]
E –拒绝原假设,意味着截距项变动–> H[豪斯曼检验]
H –不拒绝原假设–> L[选择个体随机效应模型]
H –拒绝原假设–> M[选择个体固定效应模型]

版权声明:本文为kuanleung原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/kuanleung/p/13908756.html