PDF的来源——概率密度函数
//首发于简书,详见原文:https://www.jianshu.com/p/6493edd20d61
你不会还真的以为这是一篇讲怎么做pdf文件,怎么编辑、保存、美化的文章吧?
咳咳,很遗憾告诉你不是。
这是因为小编昨天正好看到了这样一幅图,所以想吟诗一首写一篇博客。
前置知识
- 随随便便有点微积分基础
- 至少要知道函数,概率是什么吧……
- 能看得懂中国文字
好的,现在假定你们已经有了这些基础,那么接下来进入正文。
不过限于小编只有初中能力(现在才刚中考完),所以现阶段所不涉及的内容一律以定义形式详细说明。
随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。 [1]
随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。
(copy自百度百科)
上面那一坨没有什么用,只是用来凑字数的……
在学习函数时,首先提到的就是自变量和因变量,变量是什么,想必你一定很清楚。
随机变量就是在变量的基础上,增加了随机性,通常谈到随机变量就会想到概率。
例如一个骰子,随机投掷后向上的点数,就是一个随机变量。
而通常的变量是任意的,例如随随便便画的二次函数,自变量x就不需要随机。
1)离散型随机变量
在高中时学概率那一块的时候,会提到各种东西(例如分布列之类的,让你去求),但是,高中阶段通常研究的都是离散型随机变量。
离散型(discrete)随机变量即在一定区间内变量取值为有限个或可数个。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。
(copy自百度百科)
离散型随机变量最大的特点就在于它有有限个可以取到的值。
例如我现在去一个有五棵苹果的苹果树上摘苹果,由于爬树需要做很多功,所以我就郑重的决定一板砖看看能拍下来几个。
这么直观的一看就知道,我打下来的数目取值为0,1,2,3,4,5,显然这些取值是有限的,我可以完全枚举出来。再例如掷骰子,向上的点数就是离散型随机变量,取值只有1,2,3,4,5,6。
2)连续型随机变量
连续型(continuous)随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。
连续型随机变量与之不同,它不能准确的找到每一个可能的取值,通常找到的就是一个区间。
例如这里有500mL的水,我只喝一口(不清楚我的嘴有多大),还剩下多少水?
你可以尝试一下枚举剩余水量这一变量的所有可以取到的值,我相信你枚举不完的,除非你还停留在幼儿园大班,不清楚有小数这种东西的存在。
3)分布函数
例如一次考试,我们往往更关心的是及格率{x>=及格线},优秀率{x>=优秀线}之类的。
假设及格线是60分,那么及格率表述为P{x>=60},假如一共有100人参加了考试,80人及格,那么及格率P{x>=60}=80/100=4/5。
所谓的分布函数就是F(x)=P{X>=60}。(60可以依据情况换做任意常数C,其表示的就是落在区间(-∞,C]的概率)
只要知道了分布函数,那么就掌握了这一事件随机变量的统计规律,可以快速知道任意区间的概率。
例如我想知道(x1,x2]的概率,那么类似于前缀和的算法,只要用F(x2)-F(x1)就可以快速得到。
概率密度函数
对于连续型随机变量的分布函数,它是连续可导的。
对其的一阶导数,称之为概率密度函数f(x)。(若没有接触过微积分,可认为是分布函数每个点处瞬间变化率所组成的函数)
由于微分和积分互为逆运算,所以落在某区间的概率就是这个概率密度函数在这个区间的积分。所以通常直接用概率密度没有什么实际意义,往往使用的就是它在某区域的积分