数据分析面试集锦
面试题目
Catalog:Click to jump to the corresponding position
=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=.=
“我去面试一个企业,人家说,我有1亿注册用户,月活跃2500万,他们想把剩下7500万非活跃的变成活跃的,问我有什么办法,我怎么说???关键是我不了解他们的业务啊!”
错误答法:
还有一个错误答法:2500万的活跃用户算低吗?
有这种思维是好的,但是在面试的时候不能直接怼回去,数据分析师永远不要做判官,我们只提供分析方法,老板才是判官
示例答法:
①拿出一张纸画出结构
问面试官:
您好,确认一下您的问题啊,看看我理解的对不对,就是咱们现在有一亿的注册用户,活跃的用户是2500万,在活跃用户以外还有很大的空间,我们想扩大活跃空间,对不对?
目的:
我们不了解公司情况,对方又必须我们回答,我们要把节奏托下来,为我们自己争取更多的说话机会,而且重复问题是一种很专业的表现(尊重对方、专业性高)
②统一口径
问面试官:
您说有2500万的活跃用户,那怎么样算是活跃?是打开一次app,还是使用一次产品?或者是消费一次呢?
有一亿的注册用户,是有一亿个客户表格信息?还是有一亿个系统记录ID,再或者是开通了你们某项功能呢?
目的:
统一口径、写下来显得你尊重对方、箭头暗示后面还有下文,让其不会觉得我们是在拖延时间
③询问业务
画出结构图
问面试官:
那么我们是只考虑用户的活跃率问题,考不考虑用户的付费问题呢?
目的:让面试官多和你聊公司业务相关问题
④给出结论
1.既然有2500活跃的活跃用户,那么我们可以根据这个活跃用户构建出用户结构,梳理出活跃用户画像,可以对比我们活跃用户的来源渠道,付费习惯等。
2.构建了用户结构之后,我们可以将不同类用户的生命周期刻画出来,然后发现各类用户是在什么节点增长、流失的,可以在相应的节点作出一些动作。
技巧介绍:
这一招叫反客为主,是应付不太清楚背景,又必须回答问题的情况下秘籍,关键在于降低对方速度,给自己缓冲,留下思考时间,拖进我们的节奏
同时,可视化可以展示我们的能力与信心
并且,即使这个问题我们不太清楚答案,一个流程走下来,也显得80%环节是清晰的!这能大大缓解提问者的焦虑,为我们挣得主动
问:你是一个大型多元集团
下边互联网金融公司的数据分析师,今天是9月1日,9月30日你的集团总裁要在一个行业会议上发表《新零售下互联网金融的人工智能发展》
一篇演讲,请你做相关的ppt,你会怎么做?
错误答法:三天以后把PPT拿来了!!!
示例答法:只是问你会怎么做?
①搞清楚各个部门谁是牵头人,谁负责这个事情?出锅了谁背?谁牵头意味着找谁推动这个事情
②搞清楚谁审批,是我一层一层向上汇报,还是大家一起开个会现场决定?
③搞清楚都有哪些部门参与
④确认项目各个部门的负责人,找谁推动,审批等
⑤确认时间表,根据总裁需要的时间往下逐级安排时间流程,什么时间完成什么事
⑥确认分工,专业的人干专业的事情
背后含义:
这就是一个企业里项目立项到落地的全过程
所以说到底主要的考点就是项目意识
启示录:
1.数据分析工作 =/= 写代码 =/= 自己写代码
2.在企业内工作,就有领导,有领导的领导,有领导的领导的领导,主动向领导请示项目质量,有问题及时向领导多沟通
3.在企业内工作,就有目标,时间,工作计划,分工
4.切记,向领导请示目标,向项目组确认进度,向同事寻求帮助,向下属分配任务,自己围绕目标输出成果。
5.为什么你觉得自己缺乏经验,因为你做的只是其中一环!如果你觉得自己缺乏经验,动向上下平级沟通,补全项目链条!
一地产中介,准备培训新进的二手房中介,以提升中介能力,最终目标是想让每个中介每月能促成3笔交易。
问:用哪些指标可以衡量培训效果?
一般回答:
可以统计3单完成率的增幅、每个人培训前后的单数对比、培训完成后平均单数的增加绝对量对比等
深入回答:
①先思考人均3单的目标是怎么来的?为什么不是4单,5单,或者8单,就偏偏是3单?
②查看成交比例结构,看看有多少人是有成交的,没有成交的人占多少比重
③细分成交数据结构,观察在已经成交的人里,成交1单、2单的人数……,已经每个成交单数层级贡献的总单数
可能业务部门只是算了个平均成交单数发现是2.1单,于是就设定了3单的目标
我们细分结构以后发现其实无成交的人占绝大部分,总单数里也是少有的销售王牌贡献的单数
所以,目标的完成难度就显而易见,当我们发现这种问题的时候就可以对症下药,针对无成交的人设定目标,针对成交1单的人设定完成目标,而不是笼统的对比总指标。
一个非常深层次的问题:
领导期望 VS 时间+能力
控制领导期望很重要:
1. 量化考核指标
2. 从简单的做起
3. 逐步输出成果
4. 不断进步迭代
5. 弱化复杂问题的权重
数据分析三大要素是我们的命根子:1.数据来源、2.指标口径、3.统计方式,不然给的数都是错的,分析有啥用?
问题:
解答思路:
先将字段分解,然后给出选项,并且从易到难排序,先推简单的,载推难的
主要考点:
启示录:(解题思路)
养成下面这个好习惯,不止面试,日常工作都很受益
1. 审题
先审题,不要一看到问题就想着上模型
2. 确认口径
如何计算这个问题,确保口径正确
3. 分解问题
如果问题包含好几个名词或者指标,需要做分解
4. 给选项
在面试特别重要,多给几个选项,优先推荐其中一个,给自己留下后路
越是主动给选项,越容易控制领导期望
5. 找领导确认
不要自己埋头干,多和领导确认沟通
6. 分步骤完成
落地逐步做,简单的先做,逐步给领导展现成果
面试某外卖平台,HR问:“我们在上海地区的交易额比较差,分析下原因”怎么答?
这是一个典型的 为什么 的问题,在回答此类问题时,答案一定是原因1可能是、原因2可能是、原因3可能是……
不是这个答案的就答跑题了,HR和领导都喜欢直面回答问题
审题:
比较差–是一个形容词,那么就要问比较差的标杆是谁?多差算差?好的标准是什么?
是什么:
在什么时间比的,是这一天差了,还是一周差了,还是一直以来都很差?(一次性/还是连续性?,持续性/间歇性?)
一次性可能是事件导致的,间歇周期性要考虑周期问题,最好具体到什么时间什么情况什么地方发生了什么事情?
问题是越来越严重还是有向好的趋势?
为什么:
给的原因最好是可以对应到部门,比如用户、产品、竞品等,不要给什么用户活跃低了,因为用户活跃低了好像和每个部门有关
分析问题三大问:
1. 是什么?(确认数据)
2. 为什么?(寻找原因)
3. 做什么?(给出建议)
这是个典型的“是什么+为什么”问题,是什么被隐藏掉了,很多人容易掉坑!
参考答案:
1. 明确数据的来源和准确性:是哪个部门说业绩变差的?他们的数据来源是什么?是否核对的数据确保数据没有问题?
2. 明确数据口径和时间段,哪个时间段内的业绩,对标是什么,评价标准是什么,为什么说变差了?
3. 明确这是不是个问题,业绩下降是季节性波动,还是内部调整所致
4. 从商户视角和用户视角分析,是商户问题还是用户问题,
① 如果是商户问题是哪个区域的商户问题,是不是集中在某个区域,因为竞争对手产生的影响或是天气等客观因素,还是内部运营问题。
② 或者是否集中在某群用户,比如老客流失的很多,或者这是个处于成长期的平台,新客很重要但新客增长开始放缓了。针对不同的客群,找不同的部门,是推广没做好,还是会员部没做好。
某旅游电商平台,领导面试,问:“不用调研的方式,从数据上如何看出用户为什么流失?”
解题思路:
但是上面这个思路不能解决上面的问题,因为这个问题的背景是旅游电商,不是电商零售的背景,所以需要补充背景知识,但是上面的框架是可以用的
这是个典型的“为什么”问题、为什么=/=做什么!脑子一定要清醒
解题要点:
为什么的关键是找到问题来源,因此分解原因最重要
分解原因最理想的是MECE,但是很难做到
分解原因最好按部门KPI进行分解,方便跟进解决问题
这个答案是个万能解,因为它是符合MECE原则的
实际上,知道原因后可以对症下药解决问题,降低流失率,但不代表已经流失的会滚回来,这是两个问题!
如果有做什么,那么就会复杂的多
以流失挽留为例,知道了为什么流失,不代表就可以因为所以给答案
因为有可能流失原因我们是无能为力的,有可能是难以改进的
做流失挽留,要一看是否有价值挽留,二看是否有手段挽留,三看是否ROI好看,最后只能在有限范围内做挽留。
你在一个电商公司,主营海淘母婴,家居,美容,保健品,数码家电,副食品。公司在华东,华中,西南有三个货仓。
目前门槛是满88元包邮,但总有身边朋友及用户抱怨门槛高。
问:满88包邮是否太高?是否需要调整?建议怎么调?
题后思考:
见到“有人说”先搞清谁说!
见到“高、低、大、小、多、少”先树标杆!
见到“怎么做”先区分基于现状还是基于预测
要预测,业务部门先给动作,分析部门再给测算!
面试公司是运营商的乙方,提供企业通信领域服务,也基于运营商数据提供 一些分析服务,面试官是用人部门领导。现问题如下:
有四个字段数据,手机号码,经纬度,用手机访问的网址,时间。
问,在如下两种情况下,如何通过上述数据获利:1.童装店怎么盈利?2.银行怎么盈利?
这就是考验数据分析师的基本功,如何通过字段看出背后的业务含义
这样衍生划分以后,我们就可以有许多信息可以解读了,比如白天的时候是在步行街还是CBD上班,晚上是在那个档次的住宅区居住等
再比如,节假日是在国内风景区,还是国外旅游等,相应的都可以进行业务上的操作
隐藏坑点:
解题思路:
考察要点:
加工字段需要一级级向上提炼
不要直接跳到 早中晚步行街的人怎么怎么样,要一级一级提炼,时间分为早中晚等,经纬度分为各类位置,再去讲字段进行下一级的提炼
不一级一级提炼容易考虑不完善,容易丢失一些想法
即使同一个字段,不同的加工方式也会产生新的含义
比如时间 想到早中晚,到你想到周末工作日没?想到长假短假区别没?想到双11这种特殊日子没?
与其总想着拿新数据(大部分时候难度很大)不如想着如何利用资源
当你总觉得数据不够时,你缺的不是数据模型、缺的不是模型,你缺的是思考深度。
你的公司主要做新房销售,现手头数据有当年的业务员人数,业务员业绩数据。领导在纠结是否要停止在某市的业务,因为感觉该市的新房销售数量会逐步减少。
问:如何用数据分析支持这个判断?
问题坑点:
1.如何用数据分析支持这个判断?
领导要的不是科学结论,而是支持!
2.现手头数据有当年的业务员人数,业务员业绩数据。
认真想想,手头的数据真的足够吗?
例如:当我们解读单个的业绩数据时是解读不出什么的
但是如果加上两把尺子,就可以很好的解读了
所以这个问题里面是缺少数据的,缺少了标尺,我们要试着补全数据
3.你的公司主要做 新房 销售
认真想想,新房和二手房有什么区别?
其实新房反而使问题变得简单,新房的周期是非常长的,所以在本年有多少新房开盘我们是可以获取到的,这是一个存量竞争的问题
如果我们公司的新房量都已经很少了,那自然销量也会下降,所以需要通过现有数据去推算我们需要的数据
解题思路:
新房少的论据,要给出,可以获取外部数据,爬虫,搜索引擎,行业报告等
可以推算出对手的楼盘占有量,用总量-我们的楼盘量进行推算,还可以给出对手盘的身份,看看我们是否有竞争力
将销售按照销售业绩进行等级划分,查看是否存在没有王牌销售的情况,适当提升销售奖励等
考察要点:
沟通!沟通!还是沟通!
如果领导都不信我们,我们凭什么升职加薪?
如果领导需求都搞不明白,你凭什么能理解消费者?理解市场?
题后思考:
为什么你做了很多日报月报,但是分析能力没有提高?
为什么你做了很多年分析,却感觉没有深入一个行业?
题目里缺了的两根线,有试图补齐过吗?
作为数据分析部门,请给出你的观点
问题思路:
这是一个正儿八经的讨论吗?
正方的明星是可以带来粉丝流量,然后呢?这些粉丝就会购买吗?收获新用户之后会不会付费呢?消费者了解了商品一定会买吗?
反方用户审美疲劳又怎么样呢?疲劳的用户是我们的重要客户吗?疲劳的定义是什么?一个月不购买还是一个月不看直播?某电商平台虚假宣传和我们有什么关系?我做营销就会忽视供应链吗?
所以可以发现,正反方出了可量化的论点外,其余的基本都是扯皮
在决定做不做的时候,我们一定要让业务部门拿方案出来,这样我们才能用数据去分析问题,我连你请的明星是哪个都不知道,我分析什么?
考察要点:
字段、字段、还是字段
数据分析师参与讨论问题,必须具体到某一个字段
当我们的业务方在讨论一个具体问题的时候,如果他不落实到一个数字上,不落实到一个可考核的指标上的话,这就是一句废话,有可能反感,反感又怎么样了?会不会影响销售呢?
在没有收集到数据之前不轻易下结论,可以给假设
题后思考:
到底什么是一个真正的问题
可以量化,可以记录,可以对比的才是真正的问题
很多时候,数据分析师思考问题,可量化,可记录,可对比意味者我们必须要有一个字段记录了这个信息,并且这个信息可以和内部其他数据对比
如果发现我们讨论的问题还没有细致到这个问题的时候,不要轻易下结论。
实际工作中,相当多的问题根本就是扯皮、泼脏水、YY,没有看到数据前,所有的理由都是扯皮。
题目坑点:没有坑点,但是坑倒了无数人
所有人一眼就看到了周末低,平时高,然后同学们就认真作答了因为周末低,低就是不好,高就是好的,所以就开始研究把低的要搞高。
解答思路:
是不是低了就i是有问题,高了就是没问题,9月6–9月10这几天高的值难度就是真正的高吗?
9月6号意味者什么,连续5天这个线是平着走的意味着什么,为什么会有一根线平时高,周末低?
①什么样的产品工作日高周末低?
产品可以分为三大类
这才是正常的产品线,题目告诉我们是电商女性B2C,那么为什么销售图长得这么像商用B2B呢?
办公室女性需求很多,题目之说有5种,并没有具体说哪5种……
②周内连续5天平着走正常不正常?
正常消费趋势:
每年过年前(1月份)比较高,3月份过完年比较高,4、5、6月基本平着走,7、8月稍微有一点起色
9月接近四季度要开始冲量了、冲业绩了,10月有一个国庆假期销量可能低一点,11、12月一定是业绩网上很飙的
所以题目给出的数据反映出有问题的,9月6号开始冲量了怎么可能平着走?
③看产品结构
通过堆积图观察问题所在
对比同类产品在周内周末的销量趋势,发现问题所在
如果5类产品的趋势都是在周内高,周末低,那就说明我们的产品品类不够完善
如果有产品周内高,周末更高,那么应该引进更多此种类的产品
④观察其他数据,以观现状
往前多看几周数据,看看周内平着走是否健康,如果发现前几周也是平着走,那问题大了去了,一个企业该冲量的时候上不去,不就面临倒闭么
先判断是不是运营的问题,看新客户、老客户、流失率等
下一步看产品,通过第三步的产品结构发现问题,是否用户需求没有挖掘还是用户推广的问题等
运营计划:
考察要点:先看大趋势再看细节
先看群体,再入细节
解析销售,人(用户)、货(产品)、场(渠道)永远好用
销售额=用户量*转化率*客单价的公式要经常记得,找原因要对应去找
看波动趋势小技巧:将每周平均值算出来,用每天的数除以平均值,这样把大家拉到一根线上,可以看他的波动幅度和波动趋势
解题思路:
①我们发现整体趋势是往上的,但是这种增长合理吗?推广渠道新进了多少用户呢?
②周一周五是明显的谷底,这种波动性是合理的吗?前几周的数据如何呢?
③只看到了访问数据,但具体的活跃率是多少呢?一万粉丝2900活跃 和 10万粉丝2900活跃是两个概念哦
综合考虑:
考察要点:(先看大趋势再看细节)
继续先看整体,再入细节
关注整体趋势,数量&比例同样要看
不要对日报曲线习以为常,那样会错过很多分析机会
主动收集波动浮动背后的走势,(图像应该长什么样子?、周与周有没有异同?月与月、年与年呢?不同的点发生了什么?背后有什么业务含义?)对于提升分析能力至关重要
解题思路:
这种情况下是活跃度崩盘的情况,所以需要哪低看哪!
考察要点:先看大问题再看细节
当出现重大问题的时候,第一时间怀疑数据本身
第二时间找那些有能力影响全局,动摇根本的部门(先找客服问是否有顾客投诉、再看产品是否出现BUG等)
不要遇到问题就想着一堆维度,分析速度快慢也是能力的体现
解读波动是数据分析的基本功,然而解读波动也是需要经验积累的,多多努力,比如用户活跃降低80%在电商行业是个大事,但是在保健品行业就是正常的
是什么?
用户留存率不够,用户留存率不够
为什么?
①国产游戏的留存时间非常短(骗钱、关服重开等原因):所以数据周期为首日、次日等
所以确认了app类型,对于我们怎么看他的用户留存率非常重要
②有流量导入,但DAU很低
求证数据,查看用户到底漏在了哪一个阶段,即用户流失的具体形式、以及流失用户是从哪个渠道来的。
例如:如果第二天用户就流失,那么需要考虑是不是新手指引没有做好,渠道投放是不是选择错误,是不是在垃圾渠道投放的等等,具体问题具体分析
这个时候可以去上模型,上漏斗模型,看活跃转化。
考察要点:抓住问题本质
是什么
为什么·做什么
一步步来,缺什么补什么
发现问题:
一般问题要不出现在开头、要不出现在结尾,开头是(为了……)的形式,结尾是(以……)的形式,所以本题要解决的问题是:以提升业务员的收入
解答思路:
收入=房间数×转化率×房间单价
先看整体水平,先算一下全国收入的平均数,然后分两拨,哪些比平均数低,在具体看哪些城市比平均值低,好的能做到多少
整体立一个标杆,到时候考核就有标准。
差的标识出来,差的少做,好的多做,那么好的多做多少?
即加量=>需要加多少?
假如砍了100家不好的店,这100家的入住率为10%,那么就需要补10家好的店
但如果补的店没人来怎么办,这个时候就需要测算预计订房的用户有多少
未做但有潜力做的:
考察要点:正面回答问题
好多同学绕到入住率上去了,然而入住率是否和收入画等号呢?
理论上直接把差的房型淘汰掉,也能提高入住率哈
围绕问题组织答案!
题后思考∶如何把一个具体的业务动作转化为数据问题
业务员是怎么找的?怎么识别好坏?
业务员有多少精力?每天能跑多少点?
业务员有多少资本?谈判还能加什么筹码?
迈不开腿,张不开嘴的数据分析师,就等着月薪6000取数取一辈子吧
领导准备清理报表,为明年增删改做准备,让发个问卷问一下各部门意见
问:问卷如何设计,如何发?
看起来似乎很简单,但是直接问:“你还用不用?”多简单?
但是,有人填吗?
有人填有人不填怎么办?
领导填的和员工填的不一样怎么办?
解题思路:
给老板呈现问卷:
内部统计思路:
考察要点:内外部数据结合
实际上,常用的数据经常包含系统记录数据与用户自填数据两部分呢
系统数据多,但不活跃用户,无交易用户占大多数
用户自填,粉丝填的多,缘边用户填的少也是常识
粗暴丢掉某些群体的数据都会引发错误判断
根据目标组织数据,最大程度合理利用数据
题后思考:
我们分析的数据真的那么可靠吗
整体结构比娇嫩的模型更能反映问题
数据质量提升本身是个无止境的工作
不考虑数据质量的算法都是耍流氓
问题:瓜子二手车,面试直接问︰如何挽留战败用户
是滴!正确反应是先问∶什么是战败用户,要先核对统计口径。
因为用户流失是分若干个阶段的,而且二手车的行业基本是一锤子买卖,基本一买之后就是3、5年,之后瓜子二手车还在不在都是问题
解题思路:流程
到底用户是在哪个步骤流失的?
话说到底人家有几个步骤啊??
需要自己下载个app试上一试自己就知道了
搞清楚流程,是定位问题的关键
纵向流程:
横向流程:
考察要点:流程理解
为什么漏斗图那么流行,经常用?
因为漏斗图是一种符合MECE原则的诊断问题的模式
先定义清楚是什么?才能进—步探讨为什么、做什么
探讨是什么,站在全局角度思考,免得被带歪节奏
题后思考:皮,是什么被扯起来的?
大部分扯皮源自指东说西、抓小放大、顾一忘二、
指东说西∶你谈人员服务,他谈产品设计
抓小放大︰你说服务不好顾客会流失,他说就有服务不好也买的
顾一忘二:你说这里有三个问题,他说都是扯得我看就一个本质问题
所以,想不扯皮,把全流程划上,每一步问题有哪些问题,预计影响多少都标上去,是最靠谱的办法。
B2B企业,有5000家下游经销商的提货数据,没有经销商的销售数据,没有最终用户信息,是滴,只有提货数据,问怎么分析?
考察要点:理解业务模式
理解B2B的业务模式是根本,希望大家通过本例,有了一定的认识
如果不能最终诊断问题,就先定义问题
数据分析基本思路:是什么,为什么,做什么
先解决是什么,为什么的问题就更容易解决
题后思考:当数据不足的时候怎么办
如果数据不足,主动思考∶我还要什么数据才能解决问题
不要光盯着眼前的数,还有数据来源和统计方式