数据分析实战项目(一)
淘宝用户行为分析
项目背景和数据
通过此项目学习电商数据分析的指标与数据分析的基本方法。
数据来源
数据描述
- 数据集介绍
文件名称 | 说明 | 包含特征 |
---|---|---|
UserBehavior.csv | 包含所有的用户行为数据 | 用户ID,商品ID,商品类目ID,行为类型,时间戳 |
- UserBehavior.csv
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
---|---|
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括(\’pv\’, \’buy\’, \’cart\’, \’fav\’) |
时间戳 | 行为发生的时间戳 |
- 用户行为类型共有四种
行为类型 | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
- 关于数据集大小的一些说明如下
维度 | 数量 |
---|---|
用户数量 | 987,994 |
商品数量 | 4,162,024 |
商品类目数量 | 9,439 |
所有行为数量 | 100,150,807 |
分析维度
根据现有数据及分析目的,从四个维度进行分析:
# 第一个维度:用户购物情况整体分析
以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
# 第二个维度:商品购买情况分析
从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律
# 第三个维度:用户行为转化漏斗分析
从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析
# 第四个维度:参照RFM模型,对用户进行分类,找出有价值的用户
分析流程
提出问题——理解数据——数据清洗——构建模型——数据可视化
提出问题
用户最活跃的日期及时段
用户对商品有哪些购买偏好
用户行为间的转化情况
用户分类,哪些是有价值的用户
理解数据
见数据说明
数据清洗
包含数据导入(采用SQLyog)、缺失值处理、一致化处理、异常值处理(2017.11.25到2017.12.3日内的数据)
构建模型
数据可视化
问题及解决方法
这个CSV数据3.4G,行数1亿多,这个数据如何导入MYSQL?
版权声明:本文为alidata原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。