分类数据

分类数据是对事物进行分类的结果,它虽然是用数值表示,但是数值仅仅反映对象的不同特征,其大小没有意义。分类数据的结果是频数,对其进行统计分析主要利用$\chi^2$分布。

 

 

$\chi^2$统计量

$\chi^2$统计量可用于测定2个分类变量之间的相关程度。用$f_o$表示观察值频数,$f_e$表示期望值频数,则

$$\chi^2=\sum \frac{(f_o-f_e)^2}{f_e}$$

利用$\chi^2$统计量,可以对分类数据进行拟合优度检验独立性检验

 

 

拟合优度检验

拟合优度检验(goodness of fit test):

依据总体分布,计算出各类别的期望频数,与观察频数进行对比,判断两者是否有显著差异,从而对分类变量进行分析。

 

原假设和备择假设

$H_0$:观察频数与期望频数一致

$H_1$:观察频数与期望频数不一致

 

检验统计量

$$\chi^2=\sum \frac{(f_o-f_e)^2}{f_e}$$

自由度为$df=R-1$,R为分类变量的类型的个数。

在假设检验中,我们在二项分布总体、大样本情况下,对总体比例采用z检验:

$$z=\frac{p-\pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}$$

对于总体比例,同样可以使用拟合优度检验(比例可视为2个类别的分类变量)。z检验只能针对二项分布问题,而$\chi^2$检验既可以分析二项分布,也可以分析多项分布(对总体的多个比例的假设进行检验)

 

 

列联分析:独立性检验

拟合优度检验是针对一个分类变量的检验,对于两个分类变量,我们会关心它们是否有关联,称为独立性检验,通过列联表的方式呈现。

 

列联表

列联表是由2个以上的变量交叉分类的频数分布表。将行变量视为R(3类),列变量视为C(3类),可以把每一个列联表称为R×C列联表。下表为3×3列联表:

 

独立性检验

分析列联表中行变量和列变量是否独立。

 

原假设和备择假设

$H_0$:不存在依赖关系

$H_1$:存在依赖关系

 

计算个单元期望频数值

$$f_e=\frac{RT}{n}\times \frac{CT}{n} \times n=\frac{RT \times CT}{n}$$

其中$f_e$是给定单元中的期望频数,$RT$是单元所在行的合计,$CT$是单元所在列的合计,$n$是样本量。

自由度为$df=(R-1)(C-1)$。

由于$\chi^2>\chi^2_{0.05}(4)=9.488$,故拒绝$H_0$,接受$H_1$,地区与等级之间存在依赖关系。

 

 

列联表中的相关性测量:品质数据的相关系数

$\chi^2$分布可以检验两个分类变量的独立性,如果它们不独立,则相关程度有多大?相关系数表示两个变量之间的相关程度,列联表中的变量是分类变量,它们之间的相关叫做品质相关。常用的品质相关系数有$\varphi $系数、$c$系数、$V$系数。

 

$\varphi $相关系数

描述2×2列联表数据相关程度,计算公式为

$$\varphi =\sqrt{\frac{\chi^2}{n}}$$

 

每个单元的期望频数为:

$$e_{11}=\frac{(a+b)(a+c)}{n}$$

$$e_{21}=\frac{(a+c)(c+d)}{n}$$

$$e_{12}=\frac{(a+b)(b+d)}{n}$$

$$e_{22}=\frac{(b+d)(c+d)}{n}$$

$\chi^2$值为:

$$\chi^2=\frac{a-e_{11}}{e_{11}}+\frac{b-e_{12}}{e_{12}}+\frac{c-e_{21}}{e_{21}}+\frac{d-e_{22}}{e_{22}}=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$$

$$\varphi =\sqrt{\frac{\chi^2}{n}}=\frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

当ad=bc时,$\varphi$=0,2个变量独立;

当b=0,c=0时,$\varphi$=1,2个变量完全相关;

当a=0,d=0时,$\varphi$=-1,2个变量完全相关;

因此,对于2×2列联表,$\varphi $系数的取值在0~1之间,绝对值越大,相关程度越高。

对于R或C大于2的列联表,$\varphi $值无上限。

 

列联相关系数

又称c系数,主要用于大于2×2列联表的情况,计算公式为:

$$c=\sqrt{\frac{\chi^2}{\chi^2+n}}$$

当2个变量相互独立时,c=0;其最大值小于1,且随着R和C的增大而增大。它对总体的分布没有任何要求,但只有2个列联表的行数列数一致时,用c系数进行比较才有意义。

 

V相关系数

$$V=\sqrt{\frac{\chi^2}{n\times min[(R-1),(C-1)]}}$$

当两个变量相互独立时,V=0;

当两个变量完全相关时,V=1。

 

 

列联分析中应注意的问题

条件百分表的方向

一般把$X$(自变量)作为列向量,把$Y$(因变量)作为行向量,便于更好地表现原因对于结果的影响。

 

$\chi^2$分布的期望值准则

用$\chi^2$分布进行独立性检验,要求样本量必须足够大。关于每个单元的频数,有2条准则:

1. 如果只有2个单元,则每个单元的期望频数$f_e$必须大于或等于5;

2. 如果有2个以上单元,则要求20%的单元期望频数$f_e$大于或等于5。

期望频数$f_e$过小,$\frac{(f_o-f_e)^2}{f_e}$会不适当地增大,造成对$\chi^2$的高估,导致不适当地拒绝$H_0$。将较小的$f_e$合并,可得到合理的结论。

 

版权声明:本文为zm-pop-pk原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/zm-pop-pk/p/11424957.html