正态分布】(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

当μ = 0,σ = 1时的正态分布是标准正态分布

正态分布有两个参数,即期望(均数)μ 和 标准差σ,σ2为方差。

μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数中位数、众数相同,均等于μ。

σ(标准差)描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

 

高斯分布怎么来的,很简单。只要所观察的系统里,各种对象之间关联很弱(相互独立?),那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。

高斯分布的信息熵最大。即,高斯分布是最混乱系统。

自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。

 

中心极限定理】——如果一个指标受到若干独立的因素的共同影响,且每个因素不能产生支配性的影响(Lindeberg 条件),那么这个指标就服从中心极限定理,收敛到正态分布,这就是林德伯格-费勒中心极限定理的意思。

 

很多个因素独立同分布并且可以叠加,那么叠加结果就会接近正态分布。我看的参考书上把这个叫做中心极限定理。

 

我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。

 

误差分布导出的极大似然估计 = 算术平均值

正态标准化

假设我们有一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score规范化如下:

x(i,j)\’ = [x(i,j) – E(j)] / S[j],即x(i,j) 减去第j列的均值再除以第j列的标准差

这样处理之后,原数据就变成了均值为0,方差为1,记作:

X\’ = [X – E(X)]
/ S(X),其中,E(X) = 0, S(X) = 1。

版权声明:本文为quietwalk原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/quietwalk/p/8274724.html