数据分析-面板数据变截距模型

面板数据处理

变截距面板数据模型

变截距面板数据模型理论介绍

混合效应模型

背景思想

回归公式可以忽略个体与时间变化的差异，因此所有的数据特征可以通过一个公式进行刻画。进行数据的大杂烩、乱炖。为什么采取这么直接粗暴的方式呢？因为每个品种的菜(个体与时间维度)都很少，每一个品种的菜都不能够做出完整一盘菜，只能将所有的菜杂七杂八的混合起来乱炖。乱炖虽说精度不高，可是总比没法处理要好很多。

模型假定

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)；
3. \(\varepsilon_{it}与X_{it}不相关\);

公式：

\(Y_{it}=\alpha + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目	含义
\(i\)	个体标志序数
\(t\)	时间序数
\(X_{it}\)	观测变量，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\)	参数，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\alpha\)	截距项
\(\varepsilon_{it}\)	随机扰动项

估计方法展示

数据结构展示：

估计方法：

这个模型是将所有的数据\((y,x_1,x_2,x_3,x_4)\)，直接导入公式\(Y_{it}=\alpha + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)进行回归，只能求出一组\((\beta_{1},\beta_{2},..,\beta_{k})\’\)，意味着\(\beta\)在不同个体、不同时点上都是同一组，它不会因为时间或个体而发生变动。

固定效应模型

背景思想

当你拥有蔬菜的品种足够多，你就可以依据他们的味道单独做一些小炒菜。有一些影响因素A随着一些条件的改变而改变，但是这个因素A并未通过\(X\)观测变量纳入模型，比如说我们研究消费函数，\(C = \alpha + \beta Y + \varepsilon\), 这里的\(\alpha\)叫做自发消费，这个自发性消费是可能和个人特征、所处的社会文化、教育等未观测变量有关，换句话说，截距项 \(\alpha\) 和个体某些未观测到的特质有关，而不和\(Y\)有关。\(\alpha\)和\(\varepsilon\)都是代表了不可观测因素的影响，前者的影响因素是有趋势的(常数也是一种趋势)，后者的影响因素是无趋势的。更简单的理解就是，\(\alpha\)存在的意义就是为了使\(\varepsilon\)拥有零均值。

当这个截距项与个体特征相关时，我们称为个体固定效应模型。
当这个截距项与时间特征有关时，我们称为时间固定效应模型。
同理，和A潜在变量有关，我们就可以称它为A的固定效应模型。
当这个截距项与个体特征和时间特征都相关时，我们称为双固定效应模型。
同理，也可以同时依据三种或三种以上的变量进行分类，回归得出它们影响的截距项的估计值。

个体固定效应模型

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)；
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it}相关\)
5. \(E(\alpha_i)=0\)

模型公式

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目	含义
\(i\)	个体标志序数
\(t\)	时间序数
\(X_{it}\)	观测变量，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\)	参数，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\alpha_0\)	常数项
\(\alpha_i\)	个体效应
\(\alpha_0+\alpha_i\)	截距项
\(\varepsilon_{it}\)	随机扰动项
补充：也写为
\(Y_{it}=u_i+ X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(u_i = \alpha_0 +\alpha_i, E(u_i)= \alpha_0,E(\alpha_i)=0\)

估计方法展示

数据结构如下：

1.组内（within）估计（离差估计）
离差估计就是剔除常数项，然后进行估计，首先明白我们的目标：分别计算\(a,b,c,d,e\)组内的截距和各自的组内\(\beta\) .其实，不需要离差就可以回归。将a,b,c,d,e组的数据分别带入\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)，就可以得到结果。

离差方差推导
原方程：
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
求均值方程：
\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}\’ \beta + \bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)
离差变换（原方程减均值方程）：
\(Y_{it}-\bar Y_{i}=\alpha_0 +\alpha_i -(\alpha_0 +\alpha_i)+ X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i}= X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(\bar Y_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(Y_{it})\)
\(\bar X_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(X_{it})\)
带入离差数据求解,文字描述
通过\((y,x_1,x_2,x_3,x_4)\)计算组内时间上的均值\(\bar{(y,x_1,x_2,x_3,x_4)}\)，然后计算离差\((y,x_1,x_2,x_3,x_4)- \bar{(y,x_1,x_2,x_3,x_4)}\),带入离差方程\(Y_{it}-\bar Y_{i}= X_{it}\’ \beta – \bar X_{i}\’ \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)进行估计。
利用估计出的\(\beta\)带入均值方程\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}\’ \beta + \bar \varepsilon_{i},i = 1,2,3,…,N;t=1,2,3,…,T\)，求解组内的(\(\alpha_0 +\alpha_i\))
通过上一步\(N\)个组的(\(\alpha_0 +\alpha_i\))，求解\(\alpha_0 = \frac{1}{N}\displaystyle\sum_{t=1}^N(\alpha_0 +\alpha_i)\),依据假设5：\(E(\alpha_i)=0\)
再求解\(\alpha_i = (\alpha_0 +\alpha_i) – \alpha_0\)

2.一阶差分估计
原理： 因为\(\alpha_0 +\alpha_i\)是不受时间影响的，所以我们可以使用差分方法消去常数项

差分方程推导
原方程：
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
上一期方程：
\(Y_{i,t-1}=\alpha_0 +\alpha_i + X_{i,t-1}\’ \beta + \varepsilon_{i,t-1},i = 1,2,3,…,N;t=1,2,3,…,T\)
原方程减上一期方程：
\(Y_{it}-Y_{i,t-1}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it}-\alpha_0 – \alpha_i – X_{i,t-1}\’ \beta – \varepsilon_{i.t-1} = X_{it}\’ \beta -X_{i,t-1}\’ \beta + \varepsilon_{it}- \varepsilon_{i,t-1}\)
数据代入求解即可。
此方法无法求解截距项。

3.LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法，将个体差异以截距项形式的虚拟变量加入。
估计方程形式：
\(Y = D \alpha+X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_N
\end{pmatrix}\)
其中：
\(D_N=\begin{cases}
1 &\text{if } 为N组 \\
0 &\text{if } 不为N组
\end{cases}\)

时点固定效应模型

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\lambda_t 与X_{it}相关\)；

模型公式

\(Y_{it}=\lambda_0 +\lambda_t + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目	含义
\(i\)	个体标志序数
\(t\)	时间序数
\(X_{it}\)	观测变量，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\)	参数，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\lambda_0\)	常数项
\(\lambda_t\)	时间效应
\(\lambda_0+\lambda_t\)	截距项
\(\varepsilon_{it}\)	随机扰动项

估计方法展示

数据结构如下：

LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法，将时间段以截距项形式的虚拟变量加入。
估计方程形式：
\(Y = D\lambda+X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_T
\end{pmatrix}\)
其中：
\(D_T=\begin{cases}
1 &\text{if } 为T时期 \\
0 &\text{if } 不为T时期
\end{cases}\)

个体时点固定效应模型

模型假设

1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_t 与X_{it}相关\)；
5 \(\alpha_i 与X_{it}相关\)；
6 \(E(\alpha_i)=0\)；
7 \(E(\lambda_t)=0\)；

这里我们设定：
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_t=\lambda_0+\lambda_t\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_t)=\lambda_0\);

模型公式

\(Y_{it}=(\alpha_0 +\lambda_0)+\alpha_i +\lambda_t + X_{it}\’ \beta + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i + \lambda_0 +\lambda_t + X_{it}\’ \beta + \varepsilon_{it}\)
\(=\tilde{\alpha}_i+\tilde{\lambda}_t+X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)

项目	含义
\(i\)	个体标志序数
\(t\)	时间序数
\(X_{it}\)	观测变量，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\)	参数，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\lambda_0\)	时间效应的常数项
\(\lambda_t\)	时间效应
\(\alpha_0\)	个体特征的常数项
\(\alpha_i\)	个体效应
\(\alpha_0+\alpha_i+\lambda_0+\lambda_t\)	截距项
\(\varepsilon_{it}\)	随机扰动项

估计方法

数据结构展示：

LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法，将时间段以截距项形式的虚拟变量加入。

估计方程形式：
\(Y = D_{\lambda}\lambda + D_\alpha\alpha+X\beta + \varepsilon\)
\(D_{\lambda}=\begin{pmatrix}
D_1 & D_2&D_3&…&D_T
\end{pmatrix}\)
其中：
\(D_T=\begin{cases}
1 &\text{if } 为T时期 \\
0 &\text{if } 不为T时期
\end{cases}\)
\(D_\alpha=\begin{pmatrix}
D_1 & D_2&D_3&…&D_N
\end{pmatrix}\)
其中：
\(D_N=\begin{cases}
1 &\text{if } 为N组 \\
0 &\text{if } 不为N组
\end{cases}\)
也可以将时间与个体效应混合
\(Y = Dh + X\beta + \varepsilon\)
\(D=\begin{pmatrix}
D_1 & D_2&D_3&…&D_{N*T}
\end{pmatrix}\)
其中：
\(D=\begin{cases}
1 &\text{if } 为第N个体的T时期 \\
0 &\text{if } 不为第N个体的T时期
\end{cases}\)

个体时点双固定效应，控制区域、行业等模型

模型假设

这里我们设定：
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_t=\lambda_0+\lambda_t\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_t)=\lambda_0\);

模型公式

\(Y_{it}=\tilde{\alpha}_i+\tilde{\lambda}_t+D_{type}\gamma+X_{it}\’ \beta + \varepsilon_{it},
i = 1,2,3,…,N;t=1,2,3,…,T\)

这个方程为了方便理解而设定，其中\(\tilde{\alpha}_i与D_{type}\)存在共线性问题，毕竟类型属性也是个体特征的一部分嘛！

项目	含义
\(i\)	个体标志序数
\(t\)	时间序数
\(X_{it}\)	观测变量，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\)	参数，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\lambda_0\)	时间效应的常数项
\(\lambda_t\)	时间效应
\(\alpha_0\)	个体特征的常数项
\(\alpha_i\)	个体效应
\(\alpha_0+\alpha_i+\lambda_0+\lambda_t\)	截距项
\(\varepsilon_{it}\)	随机扰动项
\(D_{type}\)	类型的虚拟变量

估计方法展示

数据展示

估计方法：同上，将类型变量按照虚拟变量加入方程即可。

随机效应模型

背景思想：每组估计值的截距项的变动不与X的特征有关。

个体随机效应

模型假设

1.\(E(\varepsilon_{it})=0\);
2.\(var(\sigma_\varepsilon)为常数\)；
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it},\varepsilon_{it}不相关\);
5. \(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);

公式：

\(Y_{it}=\alpha_0 +\alpha_i + X_{it}\’ \beta + \varepsilon_{it},i = 1,2,3,…,N;t=1,2,3,…,T\)
\(=\alpha_0 + X_{it}\’ \beta +(\alpha_i+ \varepsilon_{it}),i = 1,2,3,…,N;t=1,2,3,…,T\)
\(=\alpha_0 + X_{it}\’ \beta + v_{it}, v_{it}=\alpha_i + \varepsilon_{it}, i = 1,2,3,…,N;t=1,2,3,…,T\)

项目	含义
\(i\)	个体标志序数
\(t\)	时间序数
\(X_{it}\)	观测变量，\(K*1\)向量，\((X_{1it,},X_{2it},..,X_{kit})\’\)
\(\beta\)	参数，\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})\’\)
\(\alpha_0\)	常数项
\(\alpha_i\)	随机效应
\(\alpha_0+\alpha_i\)	截距项
\(\varepsilon_{it}\)	随机扰动项
\(v_{it}=\alpha_i + \varepsilon_{it}\)	新的随机扰动项

根据\(v_{it}=\alpha_i + \varepsilon_{it}\)；\(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);\(\alpha_i 与X_{it},\varepsilon_{it}不相关\);\(var(\varepsilon)=\sigma_\varepsilon为常数\)
推导：
\(cov(v_{it},v_{is})=cov(\alpha_i + \varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i + \varepsilon_{is})+cov(\varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i )+cov(\alpha_i ,\varepsilon_{is})+cov(\varepsilon_{it},\alpha_i )+ cov(\varepsilon_{it},\ \varepsilon_{is}) =\begin{cases}
\sigma_\alpha^2 &\text{if } t \neq s \\
\sigma_\alpha^2 + \sigma_\varepsilon &\text{if } t=s
\end{cases}\)
所以不满足古典假定，存在异方差与自相关问题。

估计方法展示

可行的广义最小二乘法(FGLS)

模型设定检验

F检验（chow\’s test）

原假设：混合回归模型
备择假设：其他模型

以个体固定效应模型为例：\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)

原假设：\(u_1=u_2=…=u_N\) （存在约束，截距不会变）
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的\(RSS_r\)
备择假设：\(u_1，u_2，…，u_N不全相等\) （无约束，截距会变）
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的\(RSS_u\)

F统计量构造：
\(F=\cfrac{(RSS_r-RSS_u)/[(NT-k-1)-(NT-k-N)]}{RSS_u/(NT-k-N)} \thicksim F(N-1,NT-k-N)\)

项目	含义
\(RSS_r\)	有约束模型的残差平方和(混合模型，有约束)
\(RSS_u\)	无约束模型的残差平方和(变截距模型)
\(k\)	解释变量个数

LR检验

原假设：混合回归模型
备择假设：其他模型

以个体固定效应模型为例：\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)

原假设：\(u_1=u_2=…=u_N\) （存在约束，截距不会变）
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_r)\)
备择假设：\(u_1，u_2，…，u_N不全相等\) （无约束，截距会变）
\(Y_{it}=u_i+X_{it}\’\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_u)\)

LR统计量构造：
\(LR=-2(lnL_r-lnL_u)渐近服从\chi^2(约束条件的个数: N-1)\)

豪斯曼检验（Hauseman\’s test）

原假设：个体随机效应模型(个体效应与回归变量无关)
备择假设：个体固定效应模型(个体效应与回归变量有关)

检验的原理：
利用组内估计(within)，无论是随机效应模型的参数估计值还是固定效应模型的参数估计值，估计参数值都是一致的
利用广义最小二乘法，对随机效应模型的参数估计值是一致的，对于随机效应模型的参数估计值是不一致的

真实模型	组内估计\(\hat\beta_w\)	广义最小二乘法\(\tilde{\beta_{re}}\)
\(随机效应模型\)	一致估计量	非一致估计量
\(固定效应模型\)	一致估计量	一致估计量

检验逻辑图：

graph LR
A[F检验 or LR检验] –不拒绝原假设,意味着截距项不变动–> B[使用混合回归]
A –拒绝原假设,意味着截距项变动–> C[豪斯曼检验]
C –不拒绝原假设–> D[选择个体随机效应模型]
C –拒绝原假设–> E[选择个体固定效应模型]

变截距面板数据模型建模步骤

graph LR
A[输入数据]–>B[描述性统计分析]–>C[面板单位根检验]
C–数据非平稳–>D[面板协整分析]
C–数据平稳–>E[变截距检验] & F[变系数检验]
E[F检验 or LR检验] –不拒绝原假设,意味着截距项不变动–> G[使用混合回归]
E –拒绝原假设,意味着截距项变动–> H[豪斯曼检验]
H –不拒绝原假设–> L[选择个体随机效应模型]
H –拒绝原假设–> M[选择个体固定效应模型]

本文链接：https://www.cnblogs.com/kuanleung/p/13908756.html

数据分析-面板数据变截距模型

变截距面板数据模型

变截距面板数据模型理论介绍

混合效应模型

背景思想

模型假定

公式：

估计方法展示

数据结构展示：

估计方法：

固定效应模型

背景思想

个体固定效应模型

模型假设

模型公式

估计方法展示

时点固定效应模型

模型假设

模型公式

估计方法展示

个体时点固定效应模型

模型假设

模型公式

估计方法

个体时点双固定效应，控制区域、行业等模型

模型假设

模型公式

估计方法展示

随机效应模型

个体随机效应

模型假设

公式：

估计方法展示

模型设定检验

F检验（chow\’s test）

LR检验

豪斯曼检验（Hauseman\’s test）

检验逻辑图：

变截距面板数据模型建模步骤

数据分析-面板数据变截距模型的更多相关文章

随机推荐

热门专题

目录导航