小红书数据分析笔试题整理

销量下降的原因分析

利用结构化思维拆分销量。 对 “店铺销量构成” 进行拆解并分析不同类目的销量，进一步明确问题根源（哪几类商品销量下降最严重）。接下来我们针对每种品类去分析影响销量的因素有哪些，可能原因见图1。
![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cDovL2ltYWdlLndvc2hpcG0uY29tL3dwLWZpbGVzLzIwMTgvMTEvRzdLRFcwSGNaQ2s2YUlsdTVLR1kuanBnIXYuanBn?x-oss-
process=image/format,png)
图1
将与销量相关的指标量化
所谓量化就是穷尽所有指标的最小单元，即最小不可分割原则。经过这样一层一层公式化的量化，你就最可能找到那些“最小不可分割的指标”，进而最可能发现本质的问题所在了。统计关键环节的各层面的转化率才能反应哪个维度出了问题。最终通过一次复杂的体系化的分析后，你能得到产品的分析框架，以后再遇到什么问题，只需要在分析框架上看数据比率变化，找到对应影响的维度，再通过实际真实业务情况加以佐证，就能够尽可能的接近问题真相了。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190914173126946.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzczMDk1NQ==,size_16,color_FFFFFF,t_70)
寻找核心指标
结合具体业务寻找相关性比较大的指标（经验法，皮尔逊相似度）
http://www.woshipm.com/data-analysis/1628977.html

AARRR模型

Acquisition：获取用户
Activation：提高活跃度
Retention：提高留存率
Revenue：获取收入
Refer：自传播
确切的说AARRR并不算是一种数据分析模型，而是一整套数据分析的思路，逻辑框架。AARRR模型是所有产品经理都要了解的一个数据模型。著名的《增长黑客》里面的数据分析基础，也是以这个模型为基础的。
提升活跃与留存4种方式：

有效触达，唤醒用户：指的是通过手机PUSH、短信和微信公众号等能够触达到用户，唤醒沉睡用户启动APP的方式，是提升留存的非常有效的方法之一。如游戏老用户短信召回，电商老用户召回，召回肯定是有成本的，所以要根据用户以往行为，进行分析定为，找到召回率最高的那部分用户。（如RFM模型定为核心用户）
搭建激励体系，留存用户：好的激励体系，可以让平台健康持续发展，让用户对平台产生粘性，对提升留存非常有效。通常使用的激励方式有成长值会员体系、签到体系、积分任务体系。
丰富内容，增加用户在线时长：这点游戏产品做的非常好，各种玩法活动本身就吸引用户投入时间成本，游戏又不断强化社交属性，更增加用户粘度与成本投入。
数据反推，找到你的关键点：比如知乎，评论超过3次，用户就会留存下来，很难流失。比如有些游戏产品，一旦玩家跨过某个等级就就很难流失。这些都是你需要通过数据分析才能找到的关键节点。

https://zhuanlan.zhihu.com/p/32696403

泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。
在这里插入图片描述
对某公共汽车站的客流做调查，统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批（每批可以是1人也可以是多人）是互相独立发生的。观察每20秒区间来到候车的乘客批次，共观察77分钟
*
3=231次，共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计（MLE），得到
\lambda 的估计（81 1+34 2+9 3+6 4）/231=0.8658。

常见分布的数学期望和方差

http://www.doc88.com/p-990239555154.html

sql语句regexp_replace

    select regexp_replace(\'abcc123\',\'abc\',\'*\'),regexp_replace(\'abcc123\',\'[ac]\',\'*\'),regexp_replace(\'abcc123\',\'[ac]\') from dual;

    *c123                          *b**123                        b123

Excel中取前几位数、中间几位数、后几位数的方法

http://www.htmer.com/article/748.htm

偏度与峰度的正态性分布判断

偏度（Skewness）
偏度衡量随机变量概率分布的不对称性，是相对于平均值不对称程度的度量，通过对偏度系数的测量，我们能够判定数据分布的不对称程度以及方向。
具体来说，对于随机变量X，我们定义偏度为其的三阶标准中心距:
在这里插入图片描述
对于样本的偏度，我们一般记为SK，我们可以基于矩估计，得到有:

偏度的衡量是相对于正态分布来说，正态分布的偏度为0，即若数据分布是对称的，偏度为0。若偏度大于0，则分布右偏，即分布有一条长尾在右；若偏度小于0，则分布为左偏，即分布有一条长尾在左（如下图）；同时偏度的绝对值越大，说明分布的偏移程度越严重。
![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9waWMyLnpoaW1nLmNvbS92Mi1lNzAyNjcxZmZkZmI2OTk3ZGQ2ZTIzZGUwMTRlMTJmNV9yLmpwZw?x-oss-
process=image/format,png)
峰度（Kurtosis）
峰度，是研究数据分布陡峭或者平滑的统计量，通过对峰度系数的测量，我们能够判定数据相对于正态分布而言是更陡峭还是更平缓。比如正态分布的峰度为0，均匀分布的峰度为-1.2（平缓），指数分布的峰度6（陡峭）。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190905195256989.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzczMDk1NQ==,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9waWMyLnpoaW1nLmNvbS84MC92Mi02Nzg4N2Q3NDVkYTFiN2RjZTE0NjhiZmNjYjQ1MWQ5OV9oZC5qcGc?x-oss-
process=image/format,png)
正态性检验
利用变量的偏度和峰度进行正态性检验时，可以分别计算偏度和峰度的Z评分（Z-score）。
偏度Z-score = 偏度值/偏度值的标准差
峰度Z-score = 峰度值 /峰度值的标准差
在 [公式] 的检验水平下，偏度Z-score和峰度Z-
score是否满足假设条件下所限制的变量范围（Z-score在±1.96之间），若都满足则可认为服从正态分布，若一个不满足则认为不服从正态分布。
正态性检验的适用条件
样本的增加会减小偏度值和峰度值的标准差，相应的Z-
score会变大，最终会拒绝条件假设，会给正确判断样本数据的正态性情况造成一定的干扰。因此，当样本数据量小于100时，用偏度和峰度来判断样本的正态分布性比较合理。
https://zhuanlan.zhihu.com/p/53184516

数据库的一致性

ACID里的AID都是数据库的特征,也就是依赖数据库的具体实现.而唯独这个C,实际上它依赖于应用层,也就是依赖于开发者.这里的一致性是指系统从一个正确的状态,迁移到另一个正确的状态.什么叫正确的状态呢?就是当前的状态满足预定的约束就叫做正确的状态.而事务具备ACID里C的特性是说通过事务的AID来保证我们的一致性.
而ACID就是说事务能够通过AID来保证这个C的过程.C是目的,AID都是手段.
https://www.zhihu.com/question/31346392

常用六大聚类算法

K-Means(K均值)聚类

在这里插入图片描述

本文链接：https://www.cnblogs.com/nigulasiximegn/p/14953782.html