小红书数据分析笔试题整理
销量下降的原因分析
-
利用结构化思维拆分销量。 对 “店铺销量构成” 进行拆解并分析不同类目的销量,进一步明确问题根源(哪几类商品销量下降最严重)。接下来我们针对每种品类去分析影响销量的因素有哪些,可能原因见图1。
![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cDovL2ltYWdlLndvc2hpcG0uY29tL3dwLWZpbGVzLzIwMTgvMTEvRzdLRFcwSGNaQ2s2YUlsdTVLR1kuanBnIXYuanBn?x-oss-
process=image/format,png)
图1 -
将与销量相关的指标量化
所谓量化就是穷尽所有指标的最小单元,即最小不可分割原则。经过这样一层一层公式化的量化,你就最可能找到那些“最小不可分割的指标”,进而最可能发现本质的问题所在了。统计关键环节的各层面的转化率才能反应哪个维度出了问题。最终通过一次复杂的体系化的分析后,你能得到产品的分析框架,以后再遇到什么问题,只需要在分析框架上看数据比率变化,找到对应影响的维度,再通过实际真实业务情况加以佐证,就能够尽可能的接近问题真相了。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190914173126946.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzczMDk1NQ==,size_16,color_FFFFFF,t_70) -
寻找核心指标
结合具体业务寻找相关性比较大的指标(经验法,皮尔逊相似度)
http://www.woshipm.com/data-analysis/1628977.html
AARRR模型
Acquisition:获取用户
Activation:提高活跃度
Retention:提高留存率
Revenue:获取收入
Refer:自传播
确切的说AARRR并不算是一种数据分析模型,而是一整套数据分析的思路,逻辑框架。AARRR模型是所有产品经理都要了解的一个数据模型。著名的《增长黑客》里面的数据分析基础,也是以这个模型为基础的。
提升活跃与留存4种方式:
-
有效触达,唤醒用户:指的是通过手机PUSH、短信和微信公众号等能够触达到用户,唤醒沉睡用户启动APP的方式,是提升留存的非常有效的方法之一。如游戏老用户短信召回,电商老用户召回,召回肯定是有成本的,所以要根据用户以往行为,进行分析定为,找到召回率最高的那部分用户。(如RFM模型定为核心用户)
-
搭建激励体系,留存用户:好的激励体系,可以让平台健康持续发展,让用户对平台产生粘性,对提升留存非常有效。通常使用的激励方式有成长值会员体系、签到体系、积分任务体系。
-
丰富内容,增加用户在线时长:这点游戏产品做的非常好,各种玩法活动本身就吸引用户投入时间成本,游戏又不断强化社交属性,更增加用户粘度与成本投入。
-
数据反推,找到你的关键点:比如知乎,评论超过3次,用户就会留存下来,很难流失。比如有些游戏产品,一旦玩家跨过某个等级就就很难流失。这些都是你需要通过数据分析才能找到的关键节点。
https://zhuanlan.zhihu.com/p/32696403
泊松分布
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。
对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。观察每20秒区间来到候车的乘客批次,共观察77分钟
*
3=231次,共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计(MLE),得到
\lambda 的估计(81 1+34 2+9 3+6 4)/231=0.8658。
常见分布的数学期望和方差
http://www.doc88.com/p-990239555154.html
sql语句regexp_replace
select regexp_replace(\'abcc123\',\'abc\',\'*\'),regexp_replace(\'abcc123\',\'[ac]\',\'*\'),regexp_replace(\'abcc123\',\'[ac]\') from dual;
*c123 *b**123 b123
Excel中取前几位数、中间几位数、后几位数的方法
http://www.htmer.com/article/748.htm
偏度与峰度的正态性分布判断
偏度(Skewness)
偏度衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量,通过对偏度系数的测量,我们能够判定数据分布的不对称程度以及方向。
具体来说,对于随机变量X,我们定义偏度为其的三阶标准中心距:
对于样本的偏度,我们一般记为SK,我们可以基于矩估计,得到有:
偏度的衡量是相对于正态分布来说,正态分布的偏度为0,即若数据分布是对称的,偏度为0。若偏度大于0,则分布右偏,即分布有一条长尾在右;若偏度小于0,则分布为左偏,即分布有一条长尾在左(如下图);同时偏度的绝对值越大,说明分布的偏移程度越严重。
![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9waWMyLnpoaW1nLmNvbS92Mi1lNzAyNjcxZmZkZmI2OTk3ZGQ2ZTIzZGUwMTRlMTJmNV9yLmpwZw?x-oss-
process=image/format,png)
峰度(Kurtosis)
峰度,是研究数据分布陡峭或者平滑的统计量,通过对峰度系数的测量,我们能够判定数据相对于正态分布而言是更陡峭还是更平缓。比如正态分布的峰度为0,均匀分布的峰度为-1.2(平缓),指数分布的峰度6(陡峭)。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190905195256989.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzczMDk1NQ==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9waWMyLnpoaW1nLmNvbS84MC92Mi02Nzg4N2Q3NDVkYTFiN2RjZTE0NjhiZmNjYjQ1MWQ5OV9oZC5qcGc?x-oss-
process=image/format,png)
正态性检验
利用变量的偏度和峰度进行正态性检验时,可以分别计算偏度和峰度的Z评分(Z-score)。
偏度Z-score = 偏度值/偏度值的标准差
峰度Z-score = 峰度值 /峰度值的标准差
在 [公式] 的检验水平下,偏度Z-score和峰度Z-
score是否满足假设条件下所限制的变量范围(Z-score在±1.96之间),若都满足则可认为服从正态分布,若一个不满足则认为不服从正态分布。
正态性检验的适用条件
样本的增加会减小偏度值和峰度值的标准差,相应的Z-
score会变大,最终会拒绝条件假设,会给正确判断样本数据的正态性情况造成一定的干扰。因此,当样本数据量小于100时,用偏度和峰度来判断样本的正态分布性比较合理。
https://zhuanlan.zhihu.com/p/53184516
数据库的一致性
ACID里的AID都是数据库的特征,也就是依赖数据库的具体实现.而唯独这个C,实际上它依赖于应用层,也就是依赖于开发者.这里的一致性是指系统从一个正确的状态,迁移到另一个正确的状态.什么叫正确的状态呢?就是当前的状态满足预定的约束就叫做正确的状态.而事务具备ACID里C的特性是说通过事务的AID来保证我们的一致性.
而ACID就是说事务能够通过AID来保证这个C的过程.C是目的,AID都是手段.
https://www.zhihu.com/question/31346392
常用六大聚类算法
- K-Means(K均值)聚类