统计学概念
方差
标准差
变异系数
度量标准差相对于均值的离中趋势
标准分
标准分提供了一种对不同数据集的数据进行比较的方法,这些数据来自于不同数据源的均值和方差都不一样,通过标准分,可以将这些数据视为来自同一个数据集或者分布,从而可以进行比较。
标准分的作用是将几个数据集转换为一个理论上的新分布,这个分布的均值是0,标准差是1
距离均值若干个标准差
有时会说距离均值若干个标准差来表示特定数值的相对位置。
z分(标准分)将数据集转化为一个均值为0,标准差为1的通用分布。
标准分=距离均值的标准差的个数。
有时将异常值定义为盘里均值三个标准差的数值(需要慎重)
条件概率
全概率公式
贝叶斯定理
期望
数据集的方差和标准差是度量数据与均值的方法,而概率分布的方差和标准差是堵料一些特定数值的概率的分散情况的方法
对于离散概率分布我们关心的是取得特定数值的概率,而连续型概率分布,是关心取得特定范围的概率 – 正态分布
最小二乘法
相关
两个变量存在相关关系并不意味着一个变量会影响着另一个变量也不意味着二者存在实际关系,仅仅意味着二者之间存在某种数学关系
(在一元线性相关的前提下)用相关系数衡量直线与数据的拟合度,相关系数是介于-1和1之间的数,通常用r表示。如果r=-1,则数据为完全负线性相关,如果数据r=1,则完全正线性相关,如果r=0,则不存在相关性。
如果r为负,则两个变量之间存在负线性相关,r越接近-1,相关性越强,数据点距离直线越近。
如果r为正,则两个变量之间存在正线性相关,r越接近1,相关性越强。
随着r向0靠近,线性相关性变弱,数据之间的关系可能是非线性的