数学随想之一抽样分布与总体分布
本文主要想说明三个问题:
一是样本的数字特征,二是样本方差和样本均值的方差的区别,三是三大分布怎样构造抽样分布。
(一)
为了简便,假设有一个正态分布总体ξ~N(µ,σ2),设想我们从中随机抽取n个样本,ξ1,。。。ξn。
此时就有样本均值和样本方差了。
样本均值很好理解,不就是算术平均:
而样本方差呢,按之前理解方差不就是:
而实际上样本方差为:
差别在哪,分母对吧,实际上是n-1。当然肯定有童鞋记得统计学里说过样本方差的自由度就是n-1
好就算是n-1,那又是为什么呢?
这就要回归到问题的本质,我们抽样是为了什么?当然是为了用样本的性质估计总体的性质。
因此基于无偏估计的考虑,我们就用满足无偏性的S2作为样本方差,即S2满足E(S2)=σ2。数学证明见下面链接
PS:样本方差自由度为n-1的数学证明请复制链接 http://www.zhihu.com/question/20099757
(二)
好,我们知道了样本方差S2
这时候我要问了样本均值的方差又是什么呢?
回想下我们研究样本的初衷:即是用样本统计量T(ξ1,。。。ξn)去推断总体ξ的分布和数字特征。其中样本统计量实质上是随机变量的函数。
而样本方差和样本均值的方差差别就在于:
样本方差:它是与ξ1,。。。ξn的离差平方和除以n-1形成的样本统计量,虽然它和一般意义的方差一样具有离差平方和的形态。
但是,请注意,它其实是按照离差平方和形态构造的样本统计量,它是一个随机变量,构造它的目的是估计总体方差;
样本均值的方差:样本均值也是个样本统计量,它是总体均值的无偏估计。而样本均值的方差其实就是样本均值这个随机变量的方差。
假设有总体ξ~N(µ,σ2),ξ1,。。。ξn为来自总体的容量为 n 的样本,由于是简单随机抽样,样本相互独立且每一个都与总体同分布。
则对于正态总体ξ,其样本均值的分布可以求出,由于独立正态分布具有可加性,样本均值服从~N(µ,σ2/n)。
从分布可知样本均值的方差为σ2/n。
(三)
说起构造抽样分布,肯定要先说说统计学的三大分布:
(1)卡方分布
定义:
性质:
(2)T分布
定义:
性质:
(3)F分布
定义:
性质:
三大分布都和标准正态分布有密切关系呢,大家看
好了废话不多说,构造抽样分布吧
沿用上文假设:有一个正态分布总体ξ~N(µ,σ2),设想我们从中随机抽取n个样本,ξ1,。。。ξn。
则样本均值服从~N(µ,σ2/n),标准化后~N(0,1)。
(1)我们知道卡方分布是标准正态分布的平方和的形式,此时联想到样本方差存在平方和形式的随机变量函数
我们尝试把µ,σ2配进去,配成标准正态分布的形式。
最后得到即(n-1)S2/σ2~。这个就是样本方差的分布。
(2)我们会碰到已知总体ξ的均值µ,而不知道总体方差σ2的时候。
此时,我们自然无法这样求出~N(µ,σ2/n)。于是我们构造,对比下,就是用S代替了σ来求样本均值分布而已。
看造型,想到了吧,T分布。
=/~t(n-1)。
(3)还有个F分布,F分布构造的是已知方差σ2的两总体的样本方差比的分布
其中n1和n2分别是来自两总体的样本的样本容量。
当然,还可以用三大分布构造其他抽样分布,这要根据你具体的业务问题定。