深入解读AB测试(含统计学原理)
什么是ABtest
Abtest,又称分组隔离实验,是用于衡量网页设计、产品界面不同方案的效果的科学实验方法。
具体过程就是,为同一个产品目标制定两个方案(如一个界面按钮为蓝色,一个为红色),然后分别为两个方案分配用户流量,同时上线,根据用户的的使用行为效果衡量哪一个方案对于产品目标是有利的,之后就可以将这个方案投入使用。
原则
- 方案设计:影响用户行为的因素很多,在不同的方案设计中尽可能一次只有一个实验变量。
- 流量分配:具有代表性,相似性。实验的最终目标是将好的产品方案分配给所有的用户,因此抽样得到的用户群体要能够代表整个用户总体。
可以采用的抽样的方法是:使用聚类方法根据用户属性和行为特征对目标用户群体进行分类,然后采用分层抽样的方法保证两批用户的组成相似,尽可能满足相似性,同时也能代表总体用户特征 - 评价标准:由实验目标决定,例如方案设计的目标是想要提升转化率,那就以两个方案的转化率作为评价标准。
- 样本量确定:样本量越大越接近于真实场景,然后同时也导致了更多资源的投入。因此合理选择样本量对于接下来的实验是很重要的
效果分析
在执行完ABtest之后,接下来就需要对两个方案的效果进行评估,判断哪个方案更能满足实验目标
例如,两个方案的实验结果分别是 方案一:转化率为40%,方案二:转化率为50%
提出假设:方案一的转化率总体均值等于方案二的转化率的总体均值,也就是说两个方案没有显著性差异
p值计算:关于均值的假设检验可以使用t检验,t检验往往在是样本近似正态分布,总体参数未知的条件下使用
根据样本量、均值和方差信息计算出Z值, 结合t分布进而计算处p值。然后将p值与a值进行比较,判断是否拒绝原假设,从而判断两个方案是够存在显著性差异
区间估计
如果不存在显著性检验,说明方案本身没有效果或者样本抽样不具有代表性等,需要进行多次优化尝试
如果存在显著性差异,我们要进一步更深入的分析方案二要比方案一对于转转化率提升了多少,40%与50%都是关于总体转化率均值的点估计,因此提升了25%也是点估计,这是存在误差的。因此可以对总体参数进行区间估计,这里使用95%的置信度分别对两个方案的总体转化率差值进行估计。
根据中心极限定理可知,样本量足够大的时候,不论总体分布如何,样本均值的分布是符合正态分布的,因此可以利用下面的公司计算出总体差值的区间分布,假设是[0.1, 0.3],则表示总体均值的差以95%的概率落入这个区间内。进一步转化成方案二相较于方案一提升的百分比,则区间为[0.1/0.4,0.3/0.4],也就是[0.25, 0.75],因此得出结论:方案二比方案一效果更好,方案二有95%的把握比方案一的效果提升25%~75%
涉及到的统计学基础
假设检验:先发现一些规律和结果,然后通过概率推测这些结果发生的原因,推断的依据是小概率事件不会发生。
根据样本推断总体时会应用到假设检验,事先对总体的参数或分布做出一个假设,然后根据样本观察值判断假设是否正确,即总体的真实情况与原假设是否存在差异,从而做出接受或者拒绝原假设的判断。如果结果中p值<a值,则说明原假设值错误的,拒绝原假设,真是情况与原假设存在显著性差异
过程::
-
做出原假设与备择假设
-
根据样本数量和样本分布情况,确定总体参数的分布,构造统计量
-
以a=0.05(或其他)构造统计量的拒绝域,查看总体参数是否落入拒绝域内
显著性检验:属于假设检验
a值:又称为“弃真概率”,指的是拒绝原假设犯错的概率,因为弃真的代价比较大,因此这个概率越小越好,经常使用的值有0.01,0.05,0.001等。
例如:a=0.05代表的就是拒绝原假设犯错的概率只有0.05,犯错的概率极其小,本着小概率事件不会发生的原则,可以放心的做出 拒绝原假设,接受备择假设的判断。
p值 称为显著性水平,p值指的是在原假设正确的条件下,得到样本观察值的概率。p值越小,说明观察值出现结果越小,也就是说原假设正确的概率越低。当p<a时,可以得出 拒绝原假设的判断
置信区间:假设检验当中,通过样本值对总体参数进行估计时会用到区间估计,表示的含义是总体参数会以一定的概率落入这个区间范围内。决定区间范围的概率为置信度,常用90%或95%。
参考资料:
https://blog.csdn.net/buracag_mc/article/details/74905483?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
https://blog.csdn.net/weixin_34417200/article/details/89153830