高等数理统计（一）

引言

　　【比较官方的简介】数理统计学是一门以概率论为基础，应用性很强的学科。它研究怎样以有效的方式收集、整理和分析带有随机性的数据，以便对所考察的问题作出正确的推断和预测，为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计，它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。

　　【简单的讲】，就是通过样本分析来推断整体。

　　【意义或者重要性】在这个大数据时代，数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息，变得尤为重要。当时我们是不可能获得整体的数据的，所以我们只能通过抽取样本，进而通过样本来推断整体的规律。

　　第一章、样本与统计量

　　　　一、引言：

　　　　二、总体与样本：

　　　　三、统计量——随机变量的数字特征：

　　　　　　1、均值、方差

　　　　　　2、矩、协方差、相关性与协方差矩阵

　　　　　　3、距离与相似系数

　　　　　　4、抽样分布定理

　　　　四、常用分布：

　　第二章、参数估计

　　　　一、引言：

　　　　二、点估计——矩估计法：

　　　　三、点估计——极大似然估计：

　　　　四、估计量的优良性准则

　　　　五、区间估计——正态分布

　　　　　　1、引入

　　　　　　2、单个正态总体参数的区间估计

　　　　　　3、两个正态总体的区间估计

　　　　六、区间估计——非正态分布：

　　　　　　1、大样本正态近似法

　　　　　　2、二项分布

　　　　　　3、泊松分布

　　第三章、假设检验

　　　　一、引言：

　　　　二、正态总体均值的假设检验

　　　　　　1、单正态总体 N(μ, σ²)均值 μ 的检验

　　　　　　　　（1）双边检验 H₀: μ = μ₀；H₁: μ≠μ₀

　　　　　　　　（2）单边检验 H₀: μ = μ₀；H₁: μ>μ₀

　　　　　　2、两个正态总体 N(μ₁, σ₁²) 和 N(μ₂, σ₂²)均值的比较

　　　　　　　　（1）双边检验 H₀: μ₁ = μ₂；H₁: μ₁≠μ₂

　　　　　　　（2）单边检验 H₀: μ₁ >= μ₂；H₁: μ₁<μ₂

　　　　　　　　（3）单边检验 H₀: μ₁ <= μ₂；H₁: μ₁>μ₂

　　　　三、正态总体方差的检验

　　　　　　1、单个正态总体方差的 χ2 检验

　　　　　　　　（1） H₀: σ² =σ₀²；H₁: σ² ≠σ₀²

　　　　　　　　（2） H₀: σ² =σ₀²；H₁: σ² >σ₀²

　　　　　　　　（3) H₀: σ² ≤σ₀²；H₁: σ² > σ₀² (同2.)

　　　　　　2、两正态总体方差比的 F 检验

　　　　　　　　　(1). H₀: σ₁² = σ₂²；H₁: σ₁² ≠ σ₂².

　　　　　　　　 （2） H₀: σ₁² = σ₂²；H₁: σ₁²> σ₂²

　　　　　　　　 （3） H₀: σ₁² ≤ σ₂²；H₁: σ₁²> σ₂²

　　第四章、回归分析

　　　　一、引言

　　　　二、一元线性回归

　　　　　　1、一元线性回归模型

　　　　　　2、回归系数的最小二乘估计：

　　　　　　3、回归方程的显著性检验

　　　　　　　　（1）F 检验

　　　　　　　　（2）T 检验

　　　　　　　 （3）相关系数检验

　　　　　　4、估计与预测

　　　　　　　　（1） E(y₀)的估计

　　　　　　　　（2） y₀的预测区间

　　　　三、广义线性回归模型

　　　　四、非线性回归模型

　　第五章、方差分析

　　　　一、引言

　　　　二、单因子方差分析的统计模型

　　　　三、平方和分解

　　　　四、参数估计

　　　　　　1、点估计：正态分布的极大似然估计

　　　　　　2、置信区间

　　　　五、重复数不等情形

　　　　六、多重比较

　　　　　　1、效应差的置信区间

　　　　　　2、之后补充

　　　　七、方差齐性检验

　　　　　　1、Hartley检验

第一章、样本与统计量

　　本讲首先介绍了样本与统计量的基本概念，包括：总体、个体、样本、总体分布与样本分布；然后介绍了统计量的概念和几个常见的统计量：样本均值、方差、标准差、 k 阶原点矩和k 阶中心矩；最后介绍了抽样分布的概念与抽样分布定理。

　　一、引言：

　　由于大量随机现象必然呈现出其规律性，因而从理论上讲，只要对随机现象进行足够多次的观察，随机现象的规律性就一定能够清楚地呈现出来。但是，客观上只允许我们对随机现象进行次数不多的观察或试验，也就是说：我们获得的只能是局部的或有限的观察资料(即样本)。

　　数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料，并对所研究的问题尽可能地给出精确而可靠的推断。现实世界中存在着形形色色的数据，分析这些数据需要多种多样的方法。

　　因此，数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。

　　参数估计: 根据数据，对分布中的未知参数进行估计；

　　假设检验: 根据数据，对分布的未知参数的某种假设进行检验。

　　参数估计与假设检验构成了统计推断的两种基本形式，这两种推断渗透到了数理统计的每个分支。

　　【简单的讲】我们希望通过（有限的）样本及其统计量等信息去分析样本（的分布等），进而（通过参数估计和假设检验）去推断和检证整体的规律。

　　二、总体与样本：

　　1、总体、个体与样本：

　　在数理统计中，称研究问题所涉及对象的全体为总体，总体中的每个成员为个体。 例如: 研究某工厂生产的某种产品的废品率，则这种产品的全体就是总体，而每件产品都是一个个体。

　　实际上，我们真正关心的并不一定是总体或个体本身，而真正关心的是总体或个体的某项数量指标。 如：某电子产品的使用寿命，某天的最高气温，加工出来的某零件的长度等数量指标。因此，有时也将总体理解为那些研究对象的某项数量指标的全体。

　　为评价某种产品质量的好坏，通常的做法是：从全部产品中随机(任意)地抽取一些样品进行观测(检测)，统计学上称这些样品为一个样本。同样，我们也将样本的数量指标称为样本。因此，今后当我们说到总体及样本时，既指研究对象又指它们的某项数量指标。

　　【例1】研究某地区 N 个农户的年收人。在这里，总体既指这 N 个农户，又指我们所关心的 N个农户的数量指标──他们的年收入( N 个数字)。如果从这 N 个农户中随机地抽出 n 个农户作为调查对象，那么，这 n 个农户以及他们的数量指标──年收入( n个数字)就是样本。

　　【注意】上例中的总体是直观的，看得见、摸得着的。但是，客观情况并非总是这样。如【例2】

　　【例2】用一把尺子测量一件物体的长度。假定 n 次测量值分别为X₁,X₂ ,…,X_n。显然，在该问题中，我们把测量值X₁,X₂ ,…,X_n看成样本。但总体是什么呢?

　　事实上，这里没有一个现实存在的个体的集合可以作为上述问题的总体。可是，我们可以这样考虑，既然 n 个测量值 X₁,X₂ ,…,X_n 是样本，那么，总体就应该理解为一切所有可能的测量值的全体。

　　又如：为研究某种安眠药的药效，让 n 个病人同时服用这种药，记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数 X1,X2,…,Xn，则这些数字就是样本。那么，什么是总体呢?

　　设想让某个地区(或某国家，甚至全世界)所有患失眠症的病人都服用此药，则他们所增加睡眠的小时数之全体就是研究问题的总体。

　　2、总体分布

　　对一个总体，如果用X表示其数量指标，那么，X的值对不同的个体就取不同的值。因此，如果我们随机地抽取个体，则X的值也就随着抽取个体的不同而不同。所以，X是一个随机变量! 既然总体是随机变量X，自然就有其概率分布。我们把X的分布称为总体分布。总体的特性是由总体分布来刻画的。因此，常把总体和总体分布视为同义语。

　　【例 3 (例 l 续)】在例 l中，若农户年收入以万元计，假定 N户的收入X只取以下各值: 0.5, 0.8, l.0, 1.2和1.5。取上述值的户数分别n1, n2, n3, n4和n5 (n1+n2+n3+n4+n5=N)。则X为离散型分布，分布律为:

X	0.5	0.8	1	1.2	1.5
p _k	n₁/N	n₂/N	n₃/N	n₄/N	n₅/N

　　【例4 ( 例2续 )】在例2中，假定物体真实长度为μ(未知)。一般说来，测量值X就是总体，取μ 附近值的概率要大一些，而离μ 越远的值被取到的概率就越小。如果测量过程没有系统性误差，则X取大于μ 和小于μ 的概率也会相等。

　　在这种情况下，人们往往认为X 服从均值为μ，方差为σ² 的正态分布。σ²反映了测量的精度。于是，总体X的分布为 N(μ ,σ²)。

　　【说明】这里有一个问题，即物体长度的测量值总是在其真值 μ的附近，它不可能取负值。而正态分布取值在(-∞,∞)上。那么，怎么可以认为测量值X服从正态分布呢? 回答这个问题，有如下两方面的理由。

　　(1)对于X∼N(μ,σ²)， P{μ-3σ<X<μ+3σ}=0.9974. 即 X 落在区间(μ-3σ,μ+3σ)之外的概率不超过 0.003, 这个概率非常小。X 落在(μ-4σ,μ+4σ)之外的概率就更小了。

　　例如：假定物体长度μ =10厘米，测量误差为0.01厘米，则σ²=0.01²。这时((μ-3σ,μ+3σ)=(9.97,10.03)。于是，测量值落在这个区间之外的概率最多只有0.003，可忽略不计。可见，用正态分布 N(10,0.01²)去描述测量值X是适当的。完全可认为：X 根本就不可能取到负值；

　　(2)另外，正态分布取值范围是(-∞,∞)，这样还可以解决规定测量值取值范围上的困难。

　　如若不然, 就需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X。那么, a和b到底取什么值呢？测量者事先很难确定。再退一步，即使能够确定出a和b，却仍很难找出一个定义在 (a,b) 上的非均匀分布用来恰当地描述测量值。与其这样，还不如干脆就把取值区间放大到(-∞,∞),并用正态分布来描述测量值。这样，既简化了问题,又不致引起较大的误差。

　　【离散分布和连续分布的说明】

　　● 如果总体所包含的个体数量是有限的, 则称该总体为有限总体。有限总体的分布显然是离散型的，如【例3】。

　　● 如果总体所包含的个体数量是无限的，则称该总体为无限总体。限总体的分布可以是连续型的，如【例4】；也可是离散型的。

　　但是，在数理统计中，研究有限总体比较困难。因为其分布是离散型的，且分布律与总体中所含个体数量有关系。通常在总体所含个体数量比较大时，将其近似地视为无限总体，并用连续型分布逼近总体的分布，这样便于进一步地做统计分析。如【例5】

　　【例5】研究某大城市年龄在1岁到10岁之间儿童的身高。

　　显然，不管城市规模多大，这个年龄段的儿童数量总是有限的。因此，该总体X只能是有限总体。总体分布只能是离散型分布。然而，为便于处理问题，我们将有限总体近似地看成一个无限总体，并用正态分布来逼近这个总体的分布。当城市比较大，儿童数量比较多时，这种逼近所带来的误差，从应用观点来看，可以忽略不计。

【样本的二重性】样本X1,X2,…,Xn既被看成数值，又被看成随机变量

　　● 假设 X₁, X₂, …, X_n 是总体X中的样本，在一次具体的观测或试验中，它们是一批测量值, 是已经取到的一组数。这就是说，样本具有数的属性。

　　● 由于在具体试验或观测中，受各种随机因素的影响，在不同试验或观测中，样本取值可能不同。因此，当脱离特定的具体试验或观测时，我们并不知道样本 X₁,X₂,…,X_n 的具体取值到底是多少。因此，可将样本看成随机变量。故样本又具有随机变量的属性。

　　【例 6 (例2续)】在前面测量物体长度的例子中，如果我们在完全相同的条件下，独立地测量了n 次，把这 n 次测量结果，即样本记为 X₁,X₂,…,X_n .

　　那么，我们就认为：这些样本相互独立，且有相同的分布；其分布与总体分布 N(μ ,σ²)相同。

　　【将上述结论推广到一般的分布】如果在相同条件下对总体 X 进行 n 次重复、独立观测，就可以认为所获得的样本X₁,X₂,…,X_n是 n 个独立且与总体 X 有同样分布的随机变量。在统计文献中，通常称相互独立且有相同分布的样本为随机样本或简单样本, n 为样本大小或样本容量。

　　3、样本分布

　　既然样本 X₁,X₂,…,X_n 被看作随机向量,自然需要研究其联合分布。

　　假设总体 X 具有概率密度函数 f (x)，因样本 X₁,X₂,…,X_n独立同分布于 X，于是，样本的联合概率密度函数（也叫似然函数（likehood））为：

　　【例7】假设某大城市居民的收入 X 服从正态分布N(μ ,σ²), 概率密度为

　　现从总体 X 中随机抽取样本 X₁,X₂,…,X_n ,因其独立同分布于总体 X，即： Xi ∼ N(μ ,σ²), i＝1,2,…,n. 于是，样本X₁,X₂,…,X_n 的联合概率密度为

　　三、统计量——随机变量的数字特征：

　　由样本推断总体的某些情况时，需要对样本进行“加工”，构造出若干个样本的已知 (确定)的函数，其作用是把样本中所含的某一方面的信息集中起来。这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量。

　　1、均值、方差：

　　（1）数学期望：

　　（2）方差：

【总体】

式（1.65）证明如下：方差等于平方均值减去均值的平方

Var(x)= E[ (x-Ex)²]

　　　= E[x²-2xEx+(Ex)²]

　　　= E(x²)-2ExEx+E(Ex)²

　　　=E(x²)-2(Ex)²+(Ex)²

　　　= E(x²)-[E(x)]²

【样本】注意方差不是除n，而是（n-1）

　　（3）几种常用随机变量分布的期望和方差：

　　2、矩、协方差、相关性与协方差矩阵

　　（1）矩与中心化、标准化数据:

　　【总体】

　　【样本】

　　（2）协方差与相关系数：

　　（3）协方差矩阵与相关矩阵：

【协方差矩阵和相关系数矩阵的关系】由二者的定义公式可知，经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。 这里所说的标准化指正态化，即将原始数据处理成均值为0，方差为1的标准数据。

　　3、距离与相似系数

　　【证明第（3）和（4）条之间的关系】

　　4、抽样分布

　　统计量既然依赖于样本，而后者又是随机变量，故统计量也是随机变量，有一定的分布，这个分布称为统计量的抽样分布。

【抽样分布定理】设 X₁,X₂,…,X_n是来自均值为μ ,方差为 σ² 的总体的样本，则当 n 充分大时, 近似地有:

证明如下：

【正态分布标准化定理】若X~N（μ，σ²），则 Z = （X-μ）/σ ~ N(0,1)

【中心极限定理】设 X₁,X₂,…,X_n是来自均值为μ ,方差为 σ² 的总体的样本，则当 n 充分大时, 近似地有:

【应用1】可轻易的计算随机样本均值的概率分布值

【应用2】

【例1】用机器向瓶子里灌装液体洗涤剂，规定每瓶装 μ 毫升。但实际灌装量总有一定波动。假定灌装量的方差 σ²=1，如果每箱装这样的洗涤剂 25 瓶。求这 25 瓶洗净剂的平均灌装量与标定值 μ 相差不超过0.3毫升的概率；又如果每箱装50瓶时呢?

解：记一箱中 25 瓶洗净剂灌装量为 X₁,X₂,…, X₂₅ 是来自均值为μ , 方差为1的总体的随机样本。根据抽样分布定理1，近似地有

四、常用分布：

　　1、χ² 分布：它是由正态分布派生出来的一种分布。

【定义】设 X₁, X₂, …, X_n 相互独立，且均服从正态分布 N(0, 1), 则称随机变量

服从自由度为 n 的卡方分布，记成χ_n² 。

其实卡方分布是一种伽玛分布（α=n/2，Β=1/2时），详见【附伽玛分布和函数内容】

【附伽玛分布和函数内容】具体详见文章【LDA-math-神奇的Gamma函数】

其实伽玛函数可以看成阶乘在实数上的扩展。

【性质】如下

对于性质（1），可由正态分布的标准化公式推出，即Z_i = （X_i-μ）/σ ~ N(0，1)，则Σ(Z_i²)符合卡方分布。

对于性质（3），由于卡方分布是伽玛分布的特殊情况，则可直接由伽玛分布的均值和方差算出。

【分布密度函数】

【分布分位点】具体数值可以查表

　　2、t 分布：

【定义】设 X ～N(0, 1) , Y ～χ_n² , 且 X与Y 相互独立，则称随机变量

为服从自由度 n 的 t 分布，记为 T ～ t_n。

可以看出t分布的概率密度函数是偶函数，即 f(t) = f(-t)

t_1-α（n） = -t_α（n）

　　3、F分布：

　　【性质1】若 X ~ F_m,n，则 Y = X ^-1 ~ F_n,m

【性质2】

　　在通常 F 分布表中，只对α 比较小的值,如α = 0.01, 0.05, 0.025及0.1等列出了分位点。但有时我们也需要知道α 比较大的分位点，它们在 F 分布表中查不到。这时我们就可利用分位点的关系式(1)把它们计算出来。

【例】对m=12, n=9, α=0.95, 我们在 F 分布表中查不到 F_12,9(0.95)，但由(1)式，知

【性质3】若X ~ t_n , 则X² ~ F_1,n。

　　4、正态总体样本均值与样本方差的分布

性质（4）是由性质（1）和（2）共同推出的。定理（1）（2）（4）基本上就是后面参数估计和假设检验的核心。

【例】在设计导弹发射装置时，重要内容之一是研究弹着点偏离目标中心的距离的方差。对于某类导弹发射装置，弹着点偏离目标中心的距离服从 N(μ,σ²)，这里σ² = 100米²。现在进行了25次发射试验，用 S² 记这25次试验中弹着点偏离目标中心的距离的样本方差。求: S² 超过50米²的概率。

本文链接：https://www.cnblogs.com/mo-wang/p/4851153.html

高等数理统计（一）

高等数理统计（一）的更多相关文章

随机推荐

热门专题

目录导航