统计学的理解
1. central tendency
- 平均数:一些异常值(outliers)会严重影响均值,在精度要求较高的情形下,先要清除离群点。这也是裁判打分制的比赛,为什么要去掉一个最高分,去掉一个最低分的原因。
- 中位数:如果偶数个(2n)元素,中间的两个元素(n,n+1)相等时,中位数就是这个数;
- 众数:3、3、3、3、100
三者均可用于描述数据的中心趋势。只是方式的确定依赖,具体的数据分布情况。
2. 随机变量
随机非随意,统计解迷离。
-
X1,X2,…,Xn 是来自总体 X 的一个样本,X1,X2,…,Xn 都是随机变量
-
随机变量的函数也是随机变量,比如 X1,X2,…,Xn 上的统计量 g(X1,X2,…,Xn) 也是随机变量;
3. 概率密度
一般地,如果对于随机变量 X 的分布函数 F(x),存在非负可积函数 f(x),使对于任意实数 x 有:
则称 X 为连续型随机变量,f(x) 称为 X 的概率密度函数,简称概率密度。