数理统计02：抽样分布与次序统计量

本文主要讨论了抽样分布的基本概念，与正态总体有关的一些统计量的精确分布，重点介绍了次序统计量的概念及其分布。

Chapter 2：抽样分布与次序统计量

Chapter 2：抽样分布与次序统计量

抽样分布及预备知识

Part 1：样本均值和样本方差的基本性质

统计量的分布通常称为抽样分布，或称为诱导分布。当总体 \(X\) 的分布类型已知时，样本 \((X_1,X_2,\cdots,X_n)\) 的分布类型也是已知的，因此理论上我们也可以推导出统计量 \(T=T(X_1,X_2,\cdots,X_n)\) 的分布的表达式，这种分布称为精确抽样分布。

我们可以用抽样分布来研究统计量的性质以及衡量一个统计推断方法的优良性。英国统计学家 R.A. Fisher 把抽样分布、参数估计和假设检验看作统计推断的三个中心内容。

样本均值和样本方差是统计推断中最常用的两个统计量，因此研究样本均值和样本方差的分布也是数理统计中必不可少的环节。上一章中，我们介绍了样本均值和样本方差的基本概念，在这里我们来简单了解一下它们的基本性质。

假设有总体 \(X\sim F(x)\) ，已知 \(\boldsymbol{X}=(X_1,X_2,\cdots,X_n)\) 为来自该总体的简单随机样本，\(\bar{X}\) 和 \(S^2\) 为其样本均值与样本方差，记 \(S_n^2\) 为二阶样本中心矩。若总体的方差存在，并记 \({\rm E}(X)=\mu\) ，\({\rm Var}(X)=\sigma^2\) ，则有

\[{\rm E}(\bar{X})=\mu \ , \ \ \ \ {\rm Var}(\bar{X})=\frac{\sigma^2}{n} \ , \ \ \ \ {\rm E}\left(S^2\right)=\sigma^2 \ , \ \ \ \ {\rm E}\left(S_n^2\right)=\frac{n-1}{n}\sigma^2 \ .
\]

关于样本均值的期望，我们利用期望的性质很容易计算：

\[{\rm E}\left(\bar{X}\right)={\rm E}\left(\frac{1}{n}\sum_{i=1}^nX_i\right)=\frac1n\sum_{i=1}^n{\rm E}(X_i)=\frac1n\sum_{i=1}^n\mu=\mu \ .
\]

关于样本均值的方差，我们需要用到方差的性质和简单随机样本的独立性：

\[{\rm Var}\left(\bar{X}\right)={\rm Var}\left(\frac{1}{n}\sum_{i=1}^nX_i\right)=\frac{1}{n^2}\sum_{i=1}^n{\rm Var}(X_i)=\frac{1}{n^2}\sum_{i=1}^n\sigma^2=\frac{\sigma^2}{n} \ .
\]

关于样本方差的期望。我们首先需要计算两个量：

\[{\rm E}\left(X_i^2\right)={\rm Var}(X_i)+[{\rm E}(X_i)]^2=\sigma^2+\mu^2 \ .
\]

\[{\rm E}\left({\bar{X}}^2\right)={\rm Var}(\bar{X})+\left[{\rm E}(\bar{X})\right]^2=\frac{\sigma^2}{n}+\mu^2 \ .
\]

接着，我们将样本方差的计算公式进行变形：

\[S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}\left(\sum_{i=1}^nX_i^2-n\bar{X}^2\right) \ .
\]

对上式两边求期望得：

\[{\rm E}\left(S^2\right)=\frac{1}{n-1}\left[\sum_{i=1}^n{\rm E}\left(X_i^2\right)-n{\rm E}\left({\bar{X}}^2\right)\right]=\frac{1}{n-1}\left[n\left(\sigma^2+\mu^2\right)-\left(\sigma^2+n\mu^2\right)\right]=\sigma^2 \ .
\]

关于样本中心矩的期望，可以由样本方差的期望得到：

\[{\rm E}\left(S_n^2\right)={\rm E}\left(\frac{n-1}{n}S^2\right)=\frac{n-1}{n}{\rm E}\left(S^2\right)=\frac{n-1}{n}\sigma^2 \ .
\]

以上四个关于样本均值和样本方差的基本性质，在各种统计推断中都具有很重要的作用。事实上，能求出统计量的精确分布的情形不多，已知的精确抽样分布大多是在正态条件下得到的。我们知道，正态分布的信息完全由它的期望和方差所决定，因此如果我们假定总体是服从正态分布的，就只需要对它的期望和方差作估计。

Part 2：随机变量线性变换的期望和方差

假设在两个随机变量 \(\boldsymbol X=(X_1,X_2,\cdots,X_n)^{\rm T}\) 和 \(\boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)^{\rm T}\) 之间有一个线性变换 \(\boldsymbol Y =\boldsymbol A \boldsymbol X\) ，其中 \(\boldsymbol A=(a_{ij})\) 为 \(n\times n\) 的矩阵，即

\[\left[
\begin{array}{c}
Y_1 \\
Y_2 \\
\vdots \\
Y_n
\end{array}
\right]=
\left[
\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn} \\
\end{array}
\right]=
\left[
\begin{array}{c}
X_1 \\
X_2 \\
\vdots \\
X_n
\end{array}
\right] \ ,
\]

则有随机变量线性变换的期望和方差：

\[{\rm E}(\boldsymbol Y)={\rm E}(\boldsymbol A\boldsymbol X)=\boldsymbol A{\rm E}(\boldsymbol X) \ , \quad {\rm Var}(\boldsymbol Y)={\rm Var}(\boldsymbol A\boldsymbol X)=\boldsymbol A{\rm Var}(\boldsymbol X)\boldsymbol A^{\rm T} \ .
\]

将线性变换 \(\boldsymbol Y =\boldsymbol A \boldsymbol X\) 写为求和的形式，由期望的性质显然可得：

\[Y_i=\sum_{j=1}^n a_{ij}X_j \quad \Longrightarrow \quad {\rm E}(Y_i)=\sum_{j=1}^na_{ij}{\rm E}(X_j) \quad \Longrightarrow \quad {\rm E}(\boldsymbol Y)=\boldsymbol A{\rm E}(\boldsymbol X) \ .
\]

计算线性变换的方差，则有

\[\begin{aligned}
{\rm Var}(\boldsymbol Y)&={\rm E}\left[\big(\boldsymbol Y-{\rm E}(\boldsymbol Y)\big)\big(\boldsymbol Y-{\rm E}(\boldsymbol Y)\big)^{\rm T}\right] \\
&={\rm E}\left[\big(\boldsymbol A\boldsymbol X-\boldsymbol A{\rm E}(\boldsymbol X)\big)\big(\boldsymbol A\boldsymbol X-\boldsymbol A{\rm E}(\boldsymbol X)\big)^{\rm T}\right] \\
&={\rm E}\left[\boldsymbol A\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)^{\rm T}\boldsymbol A^{\rm T}\right] \\
&=\boldsymbol A{\rm E}\left[\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)\big(\boldsymbol X-{\rm E}(\boldsymbol X)\big)^{\rm T}\right]\boldsymbol A^{\rm T} \\
&=\boldsymbol A{\rm Var}(\boldsymbol X)\boldsymbol A^{\rm T} \ .
\end{aligned}
\]

这两个计算公式应该在概率论的学习中便已经掌握，在我们接下来要讨论的正态总体的抽样分布中，将会多次使用以上公式。下面，我们就对正态总体的样本均值和样本方差的分布展开讨论。

正态总体的抽样分布

Part 1：正态分布的概率论准备

在给出正态总体的样本均值和样本方差的分布之前，我们先回忆一下几个概率论中的定义和结论。

如果 \(n\) 维随机变量 \(\boldsymbol X=(X_1,X_2,\cdots,X_n)^{\rm T}\) 服从 \(n\) 维正态分布，则它的线性变换 \(\boldsymbol Y =\boldsymbol A \boldsymbol X\) 也服从正态分布。
正态分布具有可加性，即对任意一组相互独立的正态随机变量，它们的和仍然服从正态分布，其期望和方差可以由各个分量直接加和得到。
如果 \((X_1,X_2,\cdots,X_n)^{\rm T}\) 服从 \(n\) 维正态分布，则 \(X_1,X_2,\cdots,X_n\) 相互独立的充要条件为它们之间两两不相关。
自由度为 \(n\) 的 \(\chi^2\) 分布：设 \(X_1,X_2,\cdots,X_n\stackrel{\mathrm {i.i.d.}}\sim N(0,1)\) ，则将随机变量 \(K=\sum\limits_{i=1}^nX_i^2\) 的分布定义为自由度为 \(n\) 的 \(\chi^2\) 分布，记为 \(K\sim\chi^2(n)\) 。

在上述结论的基础上，我们给出下面的定理并进行严格的推导证明。

Part 2：正态总体的样本均值和样本方差的分布

设 \(X_1,X_2,\cdots,X_n\) 是取自正态总体 \(N(\mu,\sigma^2)\) 的一组简单随机样本。\(\bar{X}\) 和 \(S^2\) 分别为样本均值和样本方差，则有

样本均值的分布：\(\bar{X}\sim N\left(\mu,\dfrac{\sigma^2}{n}\right)\) ；

样本方差的分布：\(\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)\) ；

独立性：\(\bar{X}\) 和 \(S^2\) 独立。

对于 1，我们可以定义统计量

\[T_n=\sum_{i=1}^nX_i \ , \quad \bar{X}=\frac1n\sum_{i=1}^nX_i=\frac1n T_n \ ,
\]

利用正态分布的可加性，所以有

\[T_n\sim N\left(n\mu,n\sigma^2\right) \ .
\]

再利用正态分布的数乘性质，所以有

\[\bar{X}=\frac{1}{n}T_n\sim N\left(\mu,\frac{\sigma^2}{n}\right) \ .
\]

对于 2 ，使用施密特正交化构造一个如下的正交阵

\[\boldsymbol A=\left[
\begin{array}{ccccc}
\frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \cdots & \frac{1}{\sqrt{n}} \\
\frac{1}{\sqrt{2\cdot1}} &\frac{-1}{\sqrt{2\cdot1}} & 0 & \cdots & 0 \\
\frac{1}{\sqrt{3\cdot2}} & \frac{1}{\sqrt{3\cdot2}} & \frac{-2}{\sqrt{3\cdot2}} & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\frac{1}{\sqrt{n(n-1)}} & \frac{1}{\sqrt{n(n-1)}} & \frac{1}{\sqrt{n(n-1)}} & \cdots & \frac{-(n-1)}{\sqrt{n(n-1)}} \\
\end{array}
\right] \ .
\]

令 \(\boldsymbol X=(X_1,X_2,\cdots,X_n)^{\rm T}\) ，构造线性变换：

\[\boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)^{\rm T}\xlongequal{def}\boldsymbol A\boldsymbol X \ ,
\]

则有

\[Y_1=\sum_{i=1}^n\frac{1}{\sqrt{n}}X_i=\sqrt{n}\bar{X} \sim N(\sqrt{n}\mu,\sigma^2) \ .
\]

由正交变换保持向量长度不变的性质，得到

\[Y_1^2+Y_2^2+\cdots+Y_n^2=X_1^2+X_2^2+\cdots+X_n^2 \ .
\]

所以有

\[(n-1)S^2=\sum_{i=1}^n(X_i-\bar{X})^2=\sum_{i=1}^nX_i^2-n\bar{X}^2=\sum_{i=1}^nY_i^2-Y_i^2=\sum_{i=2}^nY_i^2 \ .
\]

接下来证明 \(Y_2,Y_3,\cdots,Y_n\) 是服从 \(N(0,\sigma^2)\) 的独立同分布的随机变量。由于正态变量的线性组合的性质，知道 \(Y_2,Y_3,\cdots,Y_n\) 都是服从正态分布的。因此只需考虑他们的均值和方差。

不妨设 \(Y_i\sim N\left(\mu_i,\sigma_i^2\right)\) ，对 \(i=2,3,\cdots,n\) ，有

\[\mu_i=\sum_{j=1}^n a_{ij}{\rm E}(X_j)=\mu\sum_{j=1}^na_{ij}=0 \ , \quad \sigma_i^2=\sum_{j=1}^na_{ij}^2{\rm Var}(X_i)=\sigma^2\sum_{j=1}^na_{ij}^2=\sigma^2 \ .
\]

由于正态分布的独立和不相关等价，所以证明 \(\forall i\neq j\) ，\(Y_i\) 和 \(Y_j\) 相互独立，只需证他们的协方差为 \(0\) ，

\[{\rm Cov}(Y_i,Y_j)={\rm Cov}\left(\sum_{k=1}^na_{ik}X_k,\sum_{l=1}^na_{jl}X_l\right)=\sigma^2\sum_{k=1}^na_{ik}a_{jk}=0
\]

用矩阵的形式可以写为

\[{\rm E}(\boldsymbol Y)=\boldsymbol A{\rm E}(\boldsymbol X)=\boldsymbol A(\mu,\mu,\cdots,\mu)^{\rm T}=(\sqrt{n}\mu,0,0,\cdots,0)^{\rm T} \ .
\]

\[{\rm Var}(\boldsymbol Y)=\boldsymbol A{\rm Var}(\boldsymbol X)\boldsymbol A^{\rm T}=\boldsymbol A\left(\sigma^2\boldsymbol I\right)\boldsymbol A^{\rm T}=\left(\sigma^2\boldsymbol I\right)\boldsymbol A\boldsymbol A^{\rm T}=\sigma^2\boldsymbol I \ .
\]

这就说明 \(Y_1,Y_2,\cdots,Y_n\) 相互独立，且 \(Y_2,Y_3,\cdots,Y_n\) 独立同分布于 \(N(0,\sigma^2)\) 。所以有

\[\frac{(n-1)S^2}{\sigma^2}=\sum_{j=2}^n\left(\frac{Y_j}{\sigma}\right)^2\sim\chi^2(n-1) \ .
\]

这样变换的意义在于，右边变成了 \(n-1\) 个独立同分布的标准正态分布的随机变量的平方和。

对于 3 ，只需要将 \(\bar{X}\) 和 \(S^2\) 写成 \(Y_1,Y_2,\cdots,Y_n\) 的表达式：

\[\bar{X}=\frac{Y_1}{\sqrt{n}} \ , \quad S^2=\frac{1}{n-1}\sum_{i=2}^nY_i^2 \ ,
\]

利用 \(Y_1,Y_2,\cdots,Y_n\) 相互独立的性质，即可知道 \(\bar{X}\) 和 \(S^2\) 相互独立。

次序统计量及其分布

Part 1：次序统计量的概念

设 \(X_1,X_2,\cdots,X_n\) 为从总体 \(F\) 中抽取的样本，将其按大小排列为

\[X_{(1)}\leq X_{(2)}\leq\cdots\leq X_{(n)} \ ,
\]

则称 \(\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right)\) 为样本 \((X_1,X_2,\cdots,X_n)\) 的次序统计量。特别地，\(X_{(1)}\) 称为最小次序统计量，\(X_{(n)}\) 称为最大次序统计量。

简单随机样本 \(X_1,X_2,\cdots,X_n\) 是独立同分布的，但次序统计量 \(X_{(1)},X_{(2)},\cdots,X_{(n)}\) 不一定是独立同分布的。

Part 2：次序统计量的分布

设总体为连续分布，分布函数为 \(F(x)\) ，概率密度函数为 \(f(x)\) 。设 \(X_1,X_2,\cdots,X_n\) 为简单随机样本。下面我们将分别求单个次序统计量的分布和次序统计量的联合分布。

单个次序统计量的分布

单个次序统计量 \(X_{(k)}\) 的密度函数为

\[f_k(x)=\frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \ .
\]

最大次序统计量 \(X_{(n)}\) 的分布函数和密度函数为

\[F_n(x)=P\left(X_{(n)}<x\right)=[F(x)]^n \ , \quad f_n(x)=n[F(x)]^{n-1}f(x) \ .
\]

最小次序统计量 \(X_{(1)}\) 的分布函数和密度函数为

\[F_1(x)=P\left(X_{(1)}<x\right)=1-[1-F(x)]^n \ , \quad f_1(x)=n[1-F(x)]^{n-1}f(x) \ .
\]

关于次序统计量的密度函数，我们可以用一种微元的处理方式，即

\[f_k(x)=F_k'(x)=\lim_{\Delta x\to0}\frac{F_k(x+\Delta x)-F_k(x)}{\Delta x} \ ,
\]

单独分析极限以内的部分，我们可以把 \(F_k(x+\Delta x)−F_k(x)\) 理解为 \(X_{(k)}\) 落在 \(x\) 和 \(x+\Delta x\) 之间的概率。这个事件相当于在 \(n\) 个样本中，有 \(k-1\) 个落在 \(x\) 之前，\(n−k\) 个落在 \(x+\Delta x\) 之后，剩下一个刚好落在这个区间内部。因此，我们需要考虑将容量为 \(n\) 的样本中的个体分成这样的三组，共有多少种分法：

\[C_n^{k-1}C_{n-k+1}^{n-k}=\frac{n!}{(k-1)!(n-k+1)!}\times(n-k+1)=\frac{n!}{(k-1)!(n-k)!} \ .
\]

结合样本的独立性，所以

\[P\left(X_{(k)}\in[x,x+\Delta x]\right)=\frac{n!}{(k-1)!(n-k)!} [F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)] \ .
\]

对上式两边同除 \(\Delta x\) 并取极限 \(\Delta x\to0\) ，则有

\[f_k(x)=\frac{n!}f(x){(k-1)!(n-k)!} [F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \ .
\]

这就得到了单个次序统计量 \(X_{(k)}\) 的密度函数。特别地，把 \(k=n\) 和 \(k=1\) 代入即可得到最大和最小次序统计量的密度函数。当然，我们也可以利用逻辑关系先求出最大和最小次序统计量的分布函数，再通过求导得出密度函数。

两个次序统计量的联合分布

两个次序统计量 \(\left(X_{(i)},X_{(j)}\right),\,i<j\) 的联合密度函数为

\[f_{ij}(x,y)=\frac{n!}{(i-1)!(j-i-1)!(n-j)!}f(x)f(y)\left[F(x)\right]^{i-1}\left[F(y)-F(x)\right]^{j-i-1}\left[1-F(y)\right]^{n-j} \ .
\]

其中联合密度的支撑为 \(x\leq y\) ，\(i<j\) 。

特别地， \(\left(X_{(1)},X_{(n)}\right)\) 的联合密度函数为

\[f_{1n}(x_1,x_n)=n(n-1)f(x_1)f(x_n)\left[F(x_n)-F(x_1)\right]^{n-2} \ , \quad x_1\leq x_n \ .
\]

我们同样利用概率微元的方式来处理，

\[f_{ij}(x,y)=\lim_{\Delta x\to0\\ \Delta y \to 0}\frac{F_{ij}(x+\Delta x,y+\Delta y)-F_{ij}(x,y)}{\Delta x\Delta y} \ .
\]

通过相似的计算，即可得出两个次序统计量的联合密度函数。

\(n\) 个次序统计量的联合分布

\(n\) 个次序统计量 \(\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right)\) 的联合密度函数为

\[f(x_1,x_2,\cdots,x_n)=n!f(x_1)f(x_2)\cdots f(x_n) \ ,\quad x_1\leq x_2\leq\cdots
\leq x_n \ .
\]

这个我们就给出结论，不予证明了。

Part 3：样本极差、样本中位数与分位数

由次序统计量出发，可以构造出很多有用的统计量。

样本极差的概念：\(R_n=X_{(n)}-X_{(1)}\) 称为样本极差，它是反映总体分布分散程度的信息。

样本极差的密度函数为：

\[f_R(r)=\int_{-\infty}^\infty n(n-1)f(r+z)f(z)[F(r+z)-F(z)]^{n-2}{\rm d}z \ , \quad r>0 \ .
\]

样本中位数的概念：

\[m_e=\left\{
\begin{array}{ll}
X_{\left(\frac{n+1}{2}\right)} \ , & n\,\text{为奇数} \ , \\ \\
\dfrac12\left(X_{\left(\frac{n}{2}\right)}+X_{\left(\frac{n}{2}+1\right)}\right) \ , & n\,\text{为偶数} \ .
\end{array}
\right.
\]

样本中位数反映总体中位数的信息，当总体分布关于某点对称时，对称中心既是总体中位数又是总体均值。

样本 \(p\) 分位数的概念：对于给定的 \(0<p<1\) ，定义

\[m_p=X_{([np])}+(n+1)\left(p-\frac{[np]}{n+1}\right)\left(X_{([np]+1)}-X_{([np])}\right) \ ,
\]

称为样本下侧 \(p\) 分位数。关于样本 \(p\) 分位数的定义有很多种，但它们均是一个次序统计量，且随着样本容量的增大，它们之间的差别并不大。

本文链接：https://www.cnblogs.com/lixddd/p/14586575.html