matlab中统计工具箱函数大全(转帖)
matlab中统计工具箱函数大全(转帖)
http://hi.baidu.com/�ҵİٶȿ���/blog/item/09e5fd1f7e1d490d304e1503.htmlmatlab中统计工具箱函数大全
MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。
表Ⅰ-1 概率密度函数
表Ⅰ-2 累加分布函数 表Ⅰ-11 线性模型函数 anova1单因子方差分析 kruskalwallis Kruskalwallis检验 manova1单因素多元方差分析 nlintool非线性模型拟合的交互式图形工具 daugment递增D-优化设计 dcovary固定协方差的D-优化设计
表Ⅰ-17 分布检验函数 kstest单样本Kolmogorov-Smirnov检验 lillietest正态性的Lilliefors检验
统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.
〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数. 〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间. 这
ta)
[phat,pci]=mle(\’dist\’,data) [phat,pci]=mle(\’dist\’,data,alpha) [phat,pci]=mle(\’dist\’,data,alpha,p1) 〉〉 \’dist\’ 给定的特定分布的名称,\’beta\’,\’binomial\’等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数. 例1 计算beta 〉〉缺失数据情况下的处理:忽视缺失数据的最大值 〉〉 相关系数:corrcoef ,计算相关系数 〉〉geomean >> xbar=mean(X) 例14 计算随机样本的峰度 >> P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu >> x=[0 1 0 1 1 1 1 0 1 >> >> 虚线贯穿”盒子”上下,表示样 >> U=ones(10,1); |
matlab中统计工具箱函数大全(转帖)
http://hi.baidu.com/�ҵİٶȿ���/blog/item/09e5fd1f7e1d490d304e1503.htmlmatlab中统计工具箱函数大全
MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。
表Ⅰ-1 概率密度函数
表Ⅰ-2 累加分布函数 表Ⅰ-11 线性模型函数 anova1单因子方差分析 kruskalwallis Kruskalwallis检验 manova1单因素多元方差分析 nlintool非线性模型拟合的交互式图形工具 daugment递增D-优化设计 dcovary固定协方差的D-优化设计
表Ⅰ-17 分布检验函数 kstest单样本Kolmogorov-Smirnov检验 lillietest正态性的Lilliefors检验
统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.
〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数. 〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间. 这
ta)
[phat,pci]=mle(\’dist\’,data) [phat,pci]=mle(\’dist\’,data,alpha) [phat,pci]=mle(\’dist\’,data,alpha,p1) 〉〉 \’dist\’ 给定的特定分布的名称,\’beta\’,\’binomial\’等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数. 例1 计算beta 〉〉缺失数据情况下的处理:忽视缺失数据的最大值 〉〉 相关系数:corrcoef ,计算相关系数 〉〉geomean >> xbar=mean(X) 例14 计算随机样本的峰度 >> P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu >> x=[0 1 0 1 1 1 1 0 1 >> >> 虚线贯穿”盒子”上下,表示样 >> U=ones(10,1); |
matlab中统计工具箱函数大全
表Ⅰ-1 概率密度函数
betapdf贝塔分布的概率密度函数
binopdf二项分布的概率密度函数
chi2pdf卡方分布的概率密度函数
exppdf指数分布的概率密度函数
fpdf f分布的概率密度函数
gampdf伽玛分布的概率密度函数
geopdf几何分布的概率密度函数
hygepdf超几何分布的概率密度函数
normpdf正态(高斯)分布的概率密度函数
lognpdf对数正态分布的概率密度函数
nbinpdf负二项分布的概率密度函数
ncfpdf非中心f分布的概率密度函数
nctpdf非中心t分布的概率密度函数
ncx2pdf非中心卡方分布的概率密度函数
poisspdf泊松分布的概率密度函数
raylpdf雷利分布的概率密度函数
tpdf学生氏t分布的概率密度函数
unidpdf离散均匀分布的概率密度函数
unifpdf连续均匀分布的概率密度函数
weibpdf威布尔分布的概率密度函数
表Ⅰ-2 累加分布函数
函数名
对应分布的累加函数
betacdf贝塔分布的累加函数
binocdf二项分布的累加函数
chi2cdf卡方分布的累加函数
expcdf指数分布的累加函数
fcdf f分布的累加函数
gamcdf伽玛分布的累加函数
geocdf几何分布的累加函数
hygecdf超几何分布的累加函数
logncdf对数正态分布的累加函数
nbincdf负二项分布的累加函数
ncfcdf非中心f分布的累加函数
nctcdf非中心t分布的累加函数
ncx2cdf非中心卡方分布的累加函数
normcdf正态(高斯)分布的累加函数
poisscdf泊松分布的累加函数
raylcdf雷利分布的累加函数
tcdf学生氏t分布的累加函数
unidcdf离散均匀分布的累加函数
unifcdf连续均匀分布的累加函数
weibcdf威布尔分布的累加函数
表Ⅰ-11 线性模型函数
anova1单因子方差分析
anova2双因子方差分析
anovan多因子方差分析
aoctool协方差分析交互工具
dummyvar拟变量编码
friedman Friedman检验
glmfit一般线性模型拟合
kruskalwallis Kruskalwallis检验
leverage中心化杠杆值
lscov已知协方差矩阵的最小二乘估计
manova1单因素多元方差分析
manovacluster多元聚类并用冰柱图表示
multcompare多元比较
多项式评价及误差区间估计
polyfit最小二乘多项式拟合
polyval多项式函数的预测值
polyconf残差个案次序图
regress多元线性回归
regstats回归统计量诊断
Ridge岭回归
rstool多维响应面可视化
robustfit稳健回归模型拟合
stepwise逐步回归
x2fx用于设计矩阵的因子设置矩阵
表Ⅰ-12 非线性回归函数
nlinfit非线性最小二乘数据拟合(牛顿法)
nlintool非线性模型拟合的交互式图形工具
nlparci参数的置信区间
nlpredci预测值的置信区间
nnls非负最小二乘
表Ⅰ-13 试验设计函数
cordexch D-优化设计(列交换算法)
daugment递增D-优化设计
dcovary固定协方差的D-优化设计
ff2n二水平完全析因设计
fracfact二水平部分析因设计
fullfact混合水平的完全析因设计
hadamard Hadamard矩阵(正交数组)
rowexch D-优化设计(行交换算法)
表Ⅰ-14 主成分分析函数
barttest Barttest检验
pcacov源于协方差矩阵的主成分
pcares源于主成分的方差
princomp根据原始数据进行主成分分析
表Ⅰ-15 多元统计函数
classify聚类分析
mahal马氏距离
manova1单因素多元方差分析
manovacluster多元聚类分析
表Ⅰ-16 假设检验函数
ranksum秩和检验
signrank符号秩检验
signtest符号检验
ttest单样本t检验
ttest2双样本t检验
ztest z检验
表Ⅰ-17 分布检验函数
jbtest正态性的Jarque-Bera检验
kstest单样本Kolmogorov-Smirnov检验
kstest2双样本Kolmogorov-Smirnov检验
lillietest正态性的Lilliefors检验
表Ⅰ-18 非参数函数
friedman Friedman检验
kruskalwallis Kruskalwallis检验
ranksum秩和检验
signrank符号秩检验
signtest符号检验
表Ⅰ-19 文件输入输出函数
caseread读取个案名
casewrite写个案名到文件
tblread以表格形式读数据
tblwrite以表格形式写数据到文件
tdfread从表格间隔形式的文件中读取文本或数值数据
表Ⅰ-20 演示函数
aoctool协方差分析的交互式图形工具
disttool探察概率分布函数的GUI工具
glmdemo一般线性模型演示
randtool随机数生成工具
polytool多项式拟合工具
rsmdemo响应拟合工具
robustdemo稳健回归拟合工具
〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.
〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.
〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.
〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回
归,逐步回归,响应曲面和岭回归等.
〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的
置信区间计算等.
〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验
〉〉其它的功能就不再介绍.
统计工具箱函数主 要分为两类:
〉数值计算函数(M文件)
〉交互式图形函数(Gui)
matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b)
累积分布函数 ,I([a,b]) 指示(Indicator)函数
p,q p事件发生的概率.
[size=2][color=blue]第1节 概率分布[/color][/size]
统计工具箱提供的常见分 布
Uniform均匀,Weibull威布尔,Noncentral
t,Rayleigh瑞利,Poisson泊松,Student\’s t,Normal正态,Negative
Binomial,Noncentral F
Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral
chi-square,Exponential指数,Binomial二项,Chi-square
Beta(分
布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数
pdf,probbability density function
〉〉功能:可选的通用概率密度函数
〉〉格 式:Y=pdf(\’Name\’,X,A1,A1,A3)
\’Name\’ 为特定的分布名称,第一个字母必须大写
X 为分布函数自变量取值矩阵
A1,A2,A3 分别为相应分布的参数值
Y 存放结果,为概率密度值矩阵
算例:
>>
y=pdf(\’Normal\’,-2:2,0,1)
y =
0.0540 0.2420 0.3989 0.2420 0.0540
>>
Y=pdf(\’Normal\’,-2:0.5:2,1,4)
Y =
0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990
0.0967
>>
p=pdf(\’Poisson\’,0:2:8,2)
p =
0.1353 0.2707 0.0902 0.0120 0.0009
>> p=pdf(\’F\’,1:2:10,4,7)
p =
0.4281 0.0636 0.0153 0.0052 0.0021
我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线
>> x=[-6:0.05:6];
>>
y1=pdf(\’Normal\’,x,0,0.5);
>>
y2=pdf(\’Normal\’,x,0,1);
>>
y3=pdf(\’Normal\’,x,0,2);
>>
y4=pdf(\’Normal\’,x,0,4);
>>plot(x,y1,\’K-\’,x,y2,\’K–\’,x,y3,\’*\’,x,y4,\’+\’)
这
个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.
累积分布函数及逆累积分布 函数 cdf icdf
〉〉功能:计算可选分布函数的累积分布和逆累积分布函数
〉〉格 式:P=cdf(\’Name\’,X,A1,A2,A3)
X=icdf(\’Name\’,P,A1,A2,A3)
>> x=[-3:0.5:3];
>> p=cdf(\’Normal\’,x,0,1)
p =
0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413
0.9332 0.9772 0.9938 0.9987
>>
x=icdf(\’Normal\’,p,0,1)
x =
-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000
1.5000 2.0000 2.5000 3.0000
随机数产生器 random
〉〉功能:产生可选分布的随机数
〉〉格 式:y=random(\’Name\’,A1,A2,A3,m,n)
A1,A2,A3 分布的参数
\’Name\’ 分布的名称
m,n 确定y的数量,如果参数是标量,则y是m*n矩阵
例如 产生服从参数为(9,10)的F-分布的4个随机数值
>>
y=random(\’F\’,9,10,2,2)
y =
3.4907 1.6762
0.5702 1.1534
均值和方差 以\’stat\’结尾的函数
均值和方差的计算函数
[m,v]=normstat(mu,sigma)
正态分布
[mn,v]=hygestat(M,K,N)
超 几何分布
[m,v]=geostat(P)
几何分布
[m,v]=gamstat(A,B)
Gamma分布
[m,v]=fstat(v1,v2)
F 分布
[m,v]=expstat(mu)
指数分布
[m,v]=chi2stat(nu)
Chi-squrare分布
[m,v]=binostat(N,P)
二 项分布
[m,v]=betastat(A,B)
Beta 分布
函数名称及调用格式
分布类型名称
[m,v]=weibstat(A,B)
威 尔分布
[m,v]=unistat(A,B)
连续均匀分布
[m,v]=unidstat(N)
离散均匀分布
[m,v]=tstat(nu)
t 分布
[m,v]=raylstat(B)
瑞利分布
[m,v]=poisstat(lambda)
泊松分布
[m,v]=ncx2stat(nu,delta)
非 中心chi2分布
[m,v]=nctstat(nu,delta)
非中心t分布
[m,v]=ncfstat(nu1,nu2,delta)
非 中心F分布
[m,v]=nbinstat(R,P)
负二项分布
[m,v]=lognstat(mu,sigma)
对数正 态分布
[size=2][color=blue]第2节 参数估计[/color][/size]
参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum
likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle
〉〉格式:phat=mle(\’dist\’,da
[phat,pci]=mle(\’dist\’,data)
[phat,pci]=mle(\’dist\’,data,alpha)
[phat,pci]=mle(\’dist\’,data,alpha,p1)
〉〉 \’dist\’
给定的特定分布的名称,\’beta\’,\’binomial\’等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.
例1 计算beta
分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.
>>
random(\’beta\’,4,3,100,1);
>>
[p,pci]=mle(\’beta\’,r,0.1)
p =
4.6613 3.5719
pci =
3.6721 2.7811
5.6504 4.3626
>>
[p,pci]=mle(\’beta\’,r,0.05)
p =
4.6613 3.5719
pci =
3.4827 2.6296
5.8399 4.5141
>>
[p,pci]=mle(\’beta\’,r,0.001)
p =
4.6613 3.5719
pci =
2.6825 1.9900
6.6401 5.1538
例 2 计算二项分布的参数估计与区间估计,alpha=0.01.
>>
r=random(\’Binomial\’,10,0.2,10,1);
>>
[p,pci]=mle(\’binomial\’,r,0.01,10)
p =
0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000
0.2000
pci =
0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005
0.0109
0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443
0.6482
[size=2][color=blue] 第3节 描述统计[/color][/size]
描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度,
样本偏度,自助法等
〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数
(median),修正的样本均值(trimean).
〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).
〉〉缺失数据情况下的处理:忽视缺失数据的最大值
(nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数
(nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).
〉〉 相关系数:corrcoef ,计算相关系数
〉〉样本分位数:prctile,计算样本的经验分位数
〉〉样本峰度:kurtosis,计 算样本峰度
〉〉样本偏度:skewness,计算样本偏度
〉〉自助法:bootstrp,对样本从新采样进行自助统计
中心趋势 (位置)度量
样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值
(输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.
〉〉geomean
功能:样本的几何均值
格式:m=geomean(X)
若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.
例 1 计算随机数产生的样本的几何均值
>>
X=random(\’F\’,10,10,100,1);
>> m=geomean(X)
m =
1.1007
>>
X=random(\’F\’,10,10,100,5);
>> m=geomean(X)
m =
0.9661 1.0266 0.9703 1.0268 1.0333
〉〉harmmean
功能:样本的调和均值
格 式:m=harmmean(X)
例 2 计算随机数的调和均值
>>
X=random(\’Normal\’,0,1,50,5);
>> m=harmmean(X)
m =
-0.2963 -0.0389 -0.9343 5.2032 0.7122
〉〉mean
功能:样本数据的算术平均值
格 式:m=mean(x)
例 3 计算正态随机数的算术平均数
>>X=random(\’Normal\’,0,1,300,5);
>> xbar=mean(X)
xbar =
0.0422 -0.0011 -0.0282 0.0616 -0.0080
〉〉 median
功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.
格式:m=median(X)
例 4 计算本的中值
>>
X=random(\’Normal\’,0,1,5,3)
X =
0.0000 0.8956 0.5689
-0.3179 0.7310 -0.2556
1.0950 0.5779 -0.3775
-1.8740 0.0403 -0.2959
0.4282 0.6771 -1.4751
>> m=median(X)
m =
0.0000 0.6771 -0.2959
〉〉 trimmean
功能:剔除极端数据的样本均值.
格式:m=trimmean(X,percent)
说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值
例5 计算修改后的样本均值
>>
X=random(\’F\’,9,10,100,4);
>> m=trimmean(X,10)
m =
1.1470 1.1320 1.1614 1.0469
散布度量
散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距
〉〉iqr
功能:计算样本的内四分位数的间距,是样本的鲁棒估计
格式:y=iqr(X)
说明:计算样本 的75%和25%的分位数之差,不受野值影响.
例6 计算样本的四分位间距
>>
X=random(\’Normal\’,0,1,100,4);
>> m=iqr(X)
m =
1.3225 1.2730 1.3018 1.2322
〉〉mad
功能:样本数据的平均绝对偏差
格式:y=mad(X)
说明:正态分 布的标准差sigma可以用mad乘以1.3估计
例7 计算样本数据的绝对偏差
>>
X=random(\’F\’,10,10,100,4);
>> y=mad(X)
y =
0.5717 0.5366 0.6642 0.7936
>> y1=var(X)
y1 =
0.6788 0.6875 0.7599 1.3240
>> y2=y*1.3
y2 =
0.8824 0.8938 0.9879 1.7212
〉〉 range
功能:计算样本极差
格式:y=range(X)
说明:极差对野值敏感
例 8 计算样本值的极差
>>
X=random(\’F\’,10,10,100,4);
>> y=range(X)
y =
10.8487 3.5941 4.2697 4.0814
〉〉var
功能:计算样本方差
格式:y=var(X) y=var(X,1) y=var(X,w)
Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化
例 9 计算各类方差
>>
X=random(\’Normal\’,0,1,100,4);
>> y=var(X)
y =
0.9645 0.8209 0.9595 0.9295
>> y1=var(X,1)
y1 =
0.9548 0.8126 0.9499 0.9202
>> w=[1:1:100];
>> y2=var(X,w)
y2 =
0.9095 0.7529 0.9660 0.9142
〉〉std
功能:样本的标准差
格式:y=std(X)
说明:经过n-1标准 化后的标准差
例 10计算随机样本的标准差
>>
X=random(\’Normal\’,0,1,100,4);
>> y=std(X)
y =
0.8685 0.9447 0.9569 0.9977
〉〉cov
功能:协方差矩阵
格 式:C=cov(X) C=cov(x,y) C=cov([x y])
说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x
y])相同,x与y的长度相同.
例 11 计算协方差
>>
x=random(\’Normal\’,2,4,100,1);
>>
y=random(\’Normal\’,0,1,100,1);
>> C=cov(x,y)
C =
12.0688 -0.0583
-0.0583 0.8924
处理缺失数据的函数
在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号”NaN”(not a
number )标注这样的数据.这种情况下,一般的函数得不到任何信息.
例如 m中包含nan数据
>> m=magic(3);
>> m([1 5 9])=[NaN NaN
NaN];
>> sum(m)
ans =
NaN NaN NaN
但 是通过缺失数据的处理,得到有用的信息.
>> nansum(m)
ans =
7 10 13
〉〉 nanmax
功能:忽视NaN,求其它数据的最大值
格式:m=nanmax(X)
[m,ndx]=nanmax(X)
m=nanmax(a,b)
说
明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给
ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同
>> m=magic(3);
>> m([1 5 9])=[NaN NaN
NaN];
>> [m,ndx]=nanmax(m)
m =
4 9 7
ndx =
3 3 2
处理缺失数据的常用函数
Y=nansum(X)
求包含确实数据的和
nansum
Y=nanstd(X)
求 包含确实数据的标准差
Nanstd
Y=nanmedian(X)
求包含确实数据中位数
Nanmedian
Y=nanmean(X)
求 包含确实数据的平均值
Nanmean
同上
求包含确实数据的最小值
Nanmin
(略)
求包含确实数据的最 大值
Nanmax
调用格式
功能
函数名称
中心矩 moment
功能:任意阶的中心矩
格 式:m=moment(X,order)
说明:order为阶,函数本身除以X的长度
例 12 计算样本函数的中心矩
>>
X=random(\’Poisson\’,2,100,4);
>> m=moment(X,1)
m =
0 0 0 0
>> m=moment(X,2)
m =
1.7604 2.0300 1.6336 2.3411
>> m=moment(X,3)
m =
1.3779 2.5500 2.3526 2.2964
百分位数及其图形描述
白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明
〉〉prctile
功能:计算样本的百分位 数
格式:y=prctile(X,p)
说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i)
百分位数.例如
>> x=(1:5)\’*(1:5)
x =
1 2 3 4 5
2 4 6 8 10
3 6 9 12 15
4 8 12 16 20
5 10 15 20 25
>>
y=prctile(x,[25,50,75])
y =
1.7500 3.5000 5.2500 7.0000 8.7500
3.0000 6.0000 9.0000 12.0000 15.0000
4.2500 8.5000 12.7500 17.0000 21.2500
做出相应的百分位数的图形
>> boxplot(x)
5列分位数构 造5个盒图,见下页.
相关系数 corrcoef
功能:相关系数
格式:R=corrcoef(X)
例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).
>> X=[41 42.5 45 45.5 45 47.5
49 51 50 55 57.5 59.5;
0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]\’;
>> R=corrcoef(X)
R =
1.0000 0.9897
0.9897 1.0000
样本峰度 kurtosis
功能:样本峰度
格式:k=kurtosis(X)
说明:峰度为单峰分布区线” 峰的平坦程度”的度量,其定义为
Matlab
工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.
例14 计算随机样本的峰度
>>
X=random(\’F\’,10,20,100,4);
>> k=kurtosis(X)
k =
6.5661 5.5851
6.0349 7.0129
样本偏度 skewness
功 能:样本偏度
格式:y=skewness(X)
说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为
>>
X=random(\’F\’,9,10,100,4);
>> y=skewness(X)
y =
1.0934 1.5513 2.0522 2.9240
自助法 bootstrap
引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.
> load lawdata
>> x=[lsat gpa]
x =
576.0000 3.3900
635.0000 3.3000
558.0000 2.8100
578.0000 3.0300
666.0000 3.4400
580.0000 3.0700
555.0000 3.0000
661.0000 3.4300
651.0000 3.3600
605.0000 3.1300
653.0000 3.1200
575.0000 2.7400
545.0000 2.7600
572.0000 2.8800
594.0000 2.9600
绘图,并进行曲线拟合
>> plot(lsat,gpa,\’+\’)
>> lsline
通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们
确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数
>> y=corrcoef(lsat,gpa)
y =
1.0000 0.7764
0.7764 1.0000
相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.
>>
y1000=bootstrp(1000,\’corrcoef\’,lsat,gpa);
>> hist(y1000(:,2),30)
绘制lsat,gpa和相关系数得直方图如下
结果显示,相关系数绝大多数在区间[0.4,1]
内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.
[size=2] [color=blue]第4节 假设检验[/color][/size]
基本概念
H0:零假设,即初始判断.
H1:备择假设, 也称对立假设.
Alpha
:显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.
P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu
tail=-1——x>x =[119 117 115 116 112 121 115
122 116 118 109 112 119 112 117 113 114 109 109 118];
>> h=ztest(x,115,4)
h =
0
表 明,接受H0,认为该种汽油的平均价格为115美分.
>>
[h,sig,ci]=ztest(x,115,4,0.01,0)
h = 0
sig =
0.8668
ci =
112.8461 117.4539
>>
[h,sig,ci]=ztest(x,115,4,0.01,1)
h =0
sig =
0.4334
ci =
113.0693 Inf
>>
[h,sig,ci]=ztest(x,115,4,0.01,-1)
h=0
sig =
0.5666
ci =
-Inf 117.2307
Ttest
功能:单一样本均值的t检验
格式:h=ttest(x,m)
h=ttest(x,m,alpha)
[h,sig,ci]=ttest(x,m,alpha,tail)
说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.
>>
x=random(\’Normal\’,0,1,100,1);
>>
[h,sig,ci]=ttest(x,0,0.01,-1)
h =
0
sig =
0.0648
ci =
-Inf 0.0808
>>
[h,sig,ci]=ttest(x,0,0.001,1)
h =
0
sig =
0.9352
ci =
-0.4542 Inf
Signtest
功能:成对样本的符号检验
格式:p=signtest(x,y,alpha)
[p,h]=signtest(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.
>> x=[0 1 0 1 1 1 1 0 1
0];
>> y=[1 1 0 0 0 0 1 1 0
0];
>>
[p,h]=signtest(x,y,0.05)
p =
0.6875
h =
0
Signrank
功 能:威尔科克符号秩检验
格式:p=signrank(x,y,alpha)
[p,h]=signrank(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.
>>
x=random(\’Normal\’,0,1,200,1);
>>
y=random(\’Normal\’,0.1,2,200,1);
>>
[p,h]=signrank(x,y,0.05)
p =
0.9757
h =
0
Ranksum
功能:两个总体一致性的威尔科克秩和的检验
格 式:p=ranksum(x,y,alpha)
[p,h]=ranksum(x,y,alpha)
说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.
>>
x=random(\’Normal\’,0,2,20,1);
>>
y=random(\’Normal\’,0.1,4,10,1);
>>
[p,h]=ranksum(x,y,0.05)
p =
0.7918
h =
0
[size=2] [color=blue]第5节 统计绘图[/color][/size]
统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.
Box图
功能:数据样本的box图
格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,\’sym\’)
boxplot(X,notch,\’sym,vert)
boxplot(X,notch,\’sym\’,vert,whis)
说明1:”盒子”的上底和下底间为四分位间距,”盒子”的上下两条线分别表示样本的25%和75%分位数.”盒子”中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.
虚线贯穿”盒子”上下,表示样
本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用”+”表示野值.
“切口”是样本的置信区间,却省时,没有切口
说明2:notch=0,盒子没有切口,notch=1,盒子有切口;\’sym\’为野值标记符号,缺省时,”+”表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用
\’sym\’规定的记号显示盒子外所有数据.
>>
x1=random(\’Normal\’,2,1,100,1);
>>
x2=random(\’Normal\’,1,2,100,1);
>> x=[x1 x2];
>> boxplot(x,1,\’*\’,1,0)
绘图结果见下页
Errorbar 误差条图
功能:误差条图
格 式:errorbar(X,Y,L,U,symbol)
errorbar(X,Y,L)
errorbar(Y,L)
说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i)
的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.
>> U=ones(20,1);
>> L=ones(20,1);
>>
errorbar(r1,r2,L,U,\’+\’)
>>
r1=random(\’Poisson\’,2,10,1);
>>r2=random(\’Poisson\’,10,10,1);
>> U=ones(10,1);
>> L=U;
>>
errorbar(r1,r2,L,U,\’+\’)
Lsline 绘制最小二乘拟合线
功能:绘制数据的最小二乘拟合曲线
格式:lsline
h=lsline
说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.
>> y=[2 3.4 5.6 8 11 12.3 13.8
16 18.8 19.9]\’;
>> plot(y,\’+\’)
>> lsline
Refcurve 参考多项式
功 能:在当前图形中给出多项式拟合曲线
格式:h=refcurve(p)
说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为
y=p1*x^n+p2*x^(n-1)+…+pn*x+p0
则p=[p1 p2 … pn p0]
>> h=[85 162 230 289 339 381
413 437 452 458 456 440 400 356];
>> plot(h,\’+\’)
>>
refcurve([-4.9,100,0])