2019.10.31 王腾飞 spss
描述性统计分析方法是只应用分类、制表、图形及概括性数据指标(如均值、方差等)来概括数据分布特征的方法。
描述数据特征的统计量可分为两类:一类表示数据的中心位置,如均值、中位数、众数等;另一类表示数据的离散程度,如方差、标准、差极差等用来衡量个体偏离中心的程度。
在描述定性观测值时,有时候我们需要把这些值按照某种原则分成一些组或者类,使得每个观测值必须目只能够落人个类中。对于给定的类,落入这个类的个案数称为频率,落人该类中的个案数和个案总数的比例称为相对频率。频率分析主要通过频率分布表、条形图、饼图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。
中心趋势是指一组数据向某个中心值靠拢的倾向。描述数据分布的中心位置的统计量称为位置统计量。对于连续变量(或称为尺度变量)和定序变量,描述数据中心趋势的指标有均值、中位数、众数、5%截尾均值;对于定性数据(名义数据),描述数据中心趋势的指标只有众数。
晕值一般是指数据的算术均值(算术平均数),是我们考察的变量有n个测试值,它们分别记为x₁,x₂,…,x ₙ ,则算数均值如下。
spss的描述性分析提供5%截尾均值,他是把观测值升序排列后,剔除掉最小的5%和最大的5%后的数据算术均值。这样计算出的均值就避免了极端值的影响。
位于中间位置的数值称为中位数。可以在中位数位置把数据分成两部分:一部分大于该数值,一部分小于该数值。
中位数受极端值的影响较小,在具有极大和极小值的数据中,中位数比均值往往更能代替数据的集中趋势。
仅仅根据数据的中心趋势指标进行决策是不够的。例如,如果一个国家的不同家庭收人差距很少;而另一个国家的家庭收入差距很大,既存在大量的贫困家庭,也存在许多十分富有的家庭,那么即使这两个国家的中等收人家庭的收人完全一样,它们的家庭收大情况也仍然不同。
(1)种树是定性数据,仅能使用的中心区是指标,但众数可以用于尺度数据。
(2)众数不一定唯一,甚至有时候众数不存在。
发生频数最高的数值
不受极端值的影响
众数可能不存在
可能有多个众数(单峰,双峰,多峰)
可用于定量和定性数据
数据的观测值中的最大值与最小值之差反映了数据的波动情况。容易受极端值的影响。
均值的标准误用来衡量不同样本的均值之间的差别。
如果两个样本均值的差值与标准误的比值小于-2或大于2,则可以断定两个均值有显著的差别,进而断定这两个样本来自于两个不同的总体。设样本标准差为s,样本的大小为n则样本均值的标准误的计算公式如下。
数据的量纲不一样,这时直接比较二者的标准差并不合适。
变异系数就可以剔除这些影响,设样本均值为x,样本标准差为x,则变异系数的计算公式如下。
试着至少有(100-p)%的数据大于或等于这个值。p%分位数位置的计算公式为i=(p/100)×n,即将数据按照从小到大进行排序,第i个位置的数即为p%分位数。前面所讲到的中位数,就是第50分位数。
统计中常常把数据的最小值、下 四分位数、中位数、上四分位数和最大值称为数据的总结五数( Five Number Summary)。从这5个值可以大致看出数据分布的中心和离散程度。而箱图(BoxPlot)则是这五个数的图形表现,具体参见3.6.2节。
β>3,分布为高峰度,即比正态分布的峰要陡峭;β<3,分布为低峰度,即比正态分布的峰要平坦些;β=0,分布为正态峰。