2020年PDD数据分析笔试题 _ 附解答
**** **前言**
19届同学反馈,拼夕夕的数据分析SQL部分出的很好,20届感叹道,说的太对了。
拼夕夕的笔试题一共五道,考试时只划分为一个部分,答题时间90分钟。
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9qR2VLMVU3RDJHSTI2ZWp0dTNHRmZHWFlCcFZGTDZXSG52ejQyOEkyUmljcmhTejVxMmliTkZkRUtYNmw0YXVPaWNSTkJXMENSV1ZQWVdLWnBRVkc2Z3ZpYmcvNjQw?x-oss-
process=image/format,png)
## **第一部分:SQL查询题3道**
**第一题:活动运营数据分析**
表1——订单表 _orders_ ,大概字段有( _user_id‘用户编号’, order_pay‘订单金额’ , order_time‘下单时间’_
)。
表2——活动报名表 _act_apply_ ,大概字段有( _act_id‘活动编号’, user_id‘报名用户’,act_time‘报名时间’_ )
需求:
1. 统计每个活动对应所有用户在报名后产生的总订单金额,总订单数。(每个用户限报一个活动, _题干默认用户报名后产生的订单均为参加活动的订单_ )。
2. 统计每个活动从开始后到当天(考试日)平均每天产生的订单数,活动开始时间定义为最早有用户报名的时间。(涉及到时间的数据类型均为:datetime)。
第1问:
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9ZblYxaWNma2NOOFpHaDk0NnVMSkVhTUZld2FEZHluSjdHWElEaFd1dWlhV0ZBU3RjR0ppY3E2WktiWk5sb2ttWjlpYW9IbXoxckl1SFFvZHJsNzRUcUhRaWJRLzY0MA?x-oss-
process=image/format,png)
第2问:
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9ZblYxaWNma2NOOFpHaDk0NnVMSkVhTUZld2FEZHluSjcyYWliZHpib1ZRUEJkdzd2UmVUR2p5bmZqSmhXT2dsZ2ZRVjhDRGNEU29UNFhtT2J0TkdXMWNRLzY0MA?x-oss-
process=image/format,png)
说明:Over函数可以和其它聚集函数、分析函数搭配,起到不同的作用。例如这里的SUM,max,min,avg,还有诸如Rank,Dense_rank等。(mysql支持,hive也支持)
**第二题:用户行为分析**
表1——用户行为表 _tracking_log_ ,大概字段有( _user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’_ )
需求:
1、计算每天的访客数和他们的平均操作次数。
2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9ZblYxaWNma2NOOFpHaDk0NnVMSkVhTUZld2FEZHluSjdLNkdRUmp2SE04NXB5aWFiaWE5eU1EVTJydmJpYkVmU3RHMkEwa2p1aWNzczBIYnZpYnVHQXJNZGREUS82NDA?x-oss-
process=image/format,png)
第2问:
在第一问的基础上添加了限制:A操作之后是B操作,AB操作必须相邻。
lead()over()可以轻易的实现!
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9ZblYxaWNma2NOOFpHaDk0NnVMSkVhTUZld2FEZHluSjd4UWljelZnUEMyZkR5bzBxczlFSVBhOTA1aWJObFlocDJxaFpUOHVIaWI1eVZ4R2ZEdGNWYzl2aGcvNjQw?x-oss-
process=image/format,png)
第三题:用户新增留存分析
表1——用户登陆表 _user_log_ ,大概字段有( _user_id‘用户编号’,log_time‘登陆时间’_ )
要求:
每天新增用户数,以及他们第2天、30天的回访比例
如何定义新增用户:用户登陆表中最早的登陆时间所在的用户数为当天新增用户数;
第2天回访用户数:第一天登陆的用户中,第二天依旧登陆的用户;–次日留存率
第30天的回访用户数:第一天登陆用户中,第30天依旧登陆的用户;
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9ZblYxaWNma2NOOFpHaDk0NnVMSkVhTUZld2FEZHluSjdpYTdvb21yN3plZkFOUXlIT2w2U3BISWtKcjN0Z29rVFlUd1JXSjBTVHVzNnlZQndZMnlGM0pRLzY0MA?x-oss-
process=image/format,png)
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9qR2VLMVU3RDJHSTI2ZWp0dTNHRmZHWFlCcFZGTDZXSDJxMDRWdWJIWnF2dVg2eHNTR3Q5REVrWUd0dGRwcm00SzVYOGZJaWFPUUhNUWVId1dpYVllOU9nLzY0MA?x-oss-
process=image/format,png)
## **第二部分:计算题1道**
**贝叶斯公式的应用**
已知A,B厂生产的产品的次品率分别是1%和2%,现在由A,B产品分别占60%、40%的样品中随机抽一件,若取到的是次品,求此次品是B厂生产的概率。
已知:P(A)=0.6,P(B)=0.4,P(次/A)=0.01,P(次/B)=0.02
求:P(B/次)
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9Nd254cnVqbnBpY3dQdmRtZmdEWE9ycmJYdng5UmljM0tLSWliSnN1SHdwTzBCaWN6ZlE5R2JTaWNZU2x6bEdVaWJsSDFHZUp6anN6TGwwSWxTSWRpYkhFR25pYUJnLzY0MA?x-oss-
process=image/format,png)
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9qR2VLMVU3RDJHSTI2ZWp0dTNHRmZHWFlCcFZGTDZXSGlhSlplaWI2RkZTNXlad2JzaFJ0ZEdCVE13WktzQmljVGxWV2ljcFhoaWJpYXBKMjN5QUJBc0hMcTM0dy82NDA?x-oss-
process=image/format,png)
## **第三部分:综合分析题1道**
**ABtest**
某网站优化了商品详情页,现在新旧两个版本同时运行,新版页面覆盖了10%的用户,旧版覆盖90%的用户。现在需要了解,新版页面是否能够提高商品详情页到支付页的转化率,并决定是否要覆盖旧版,你能为决策提供哪些信息,需要收集哪些指标,给出统计方法及过程。
解答:
使用A/B测试模型,分析两个版本在一段时间期限内,详情页面到支付页面的转化率变化,并计算转化率变化后引起的的GMV变化。
可选择的决策:①确定发布新版本;②调整分流比例继续测试;③优化迭代方案重新开发。
要统计的指标:期限内新、旧版本商品详情页到支付页转化率 ,支付金额。
要衡量的指标:转化率变化 t 在是可接受的置信区间内是否显著,同时参考收益提升率。
指标计算方法:转化率=从某详情页到支付页用户数/浏览该商品详情页用户数(取日平均和标准差)
支付金额=从某详情页到支付页到支付成功路径用户的本次支付金额(取日平均)
采用决策①的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。并且收益提升率达到预期水平。
采用决策②的情况:本次页面改进在显著性水平内,无法证明‘转化率提升的假设’。分析原因可能是新版本样本空间不足。
采用决策③的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。但是收益提升率没有达到预期水平。
文章整理自知乎,作者「求知鸟」
“`code
End
“`
“`code
数分技能 | AB测试就该这么分析! Python数据分析实战 | 同期群分析 同同同期群分析到底是个啥?
数据不吹牛读者群已经建立后台回复“入群”,一起吹水和交流干货
“`
**“有用”**
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2dpZi95QXlRS3pDYkFIYk5BVU1pY0E4ajc1c1dzT3hpYkNsQTRFeFZTQk9EamY3R2pKODNGeHJ6UWdIN2ljNmNGaE5SQk1qU0ZJcmh4cXM3SHhNVUY4ZWNpYTFYMkEvNjQw?x-oss-
process=image/format,png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210608151750993.gif)