淘宝用户行为分析-数据分析
一、项目目的及数据来源
该项目基于现代电商行业—以淘宝作为分析标的,多维度分析用户行为。数据来源于https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1。
二、分析维度
基于现有的数据以及分析方法,分为四个维度进行分析:
1.时间维度分析
以淘宝用户发生行为的时间,由大到小细化:月份–星期–日–小时,分析行为发生的深层含义,了解用户在何时会产生大的‘’行为-经济”效应。
2.转化漏斗维度分析
计算浏览-支付转化率、收藏-支付转化率、添加购物车-支付转化率,从用户的浏览到支付行为进行漏斗分析。
3.商品购买情况分析
从商品的复购率、平均购买次数、平均购买商品数量等,了解商品在销售的过程中的数量情况。
4.对用户进行分类,利用FRM模型,提高销售的核心,精准营销客户群体。
三、分析项目
项目分析流程线:提出问题-分析数据含义-数据清洗-建立模型-数据可视化
1.提出问题
(1)研究用户在不同时段的行为规律,找到在不同的周期下的活跃度
(2)用户不同行为之间的转化
(3)用户对那些商品分类以及下级商品的购买偏好
(4)区分核心价值客户,调整营销策略
2.分析数据含义
本项目数据来源于阿里巴巴2014年11月18日至12月18日淘宝用户的真实的商品、行为数据,约有100万条随机用户的行为数据,行为类型包括浏览(PV)、收藏、添加购物车、支付。
数据集字段的含义如下:
user_id:用户id
item_id:商品id
behavior_type:行为类型(1表示PV,2表示收藏,3表示添加购物车,4表示支付)
user_geohash:用户地理位置
item_category:商品分类
date:日期
buy_hour:行为发生时间
3.数据清洗
数据库采用MYSQL,通过Navicat导入数据。
在Navicat环境下对一系列数据以多维度处理分析,主要分为用户信息表、重复购买表、用户行为类型时间点分布表,分别导出到Excel,采用powerquery和powerpivot对数据再次进行二次整合、处理。
注意:由于user_geohash缺失值较多,会对整体项目产生误导性,故不分析该维度。
4.建立模型和可视化
(1)PV:访问量,指在网站的页面浏览量或点击量,每刷新一次就自动叠加。
上图可以明显看出,在12月12日出现了访问量激增,出现了峰值,明显与双十二的活动有关。可以在活动的前几天加大投入商品的上架数量和广告的投入,降低客户获取成本。
(2)UV:独立访客量,指一台电脑的IP地址就算一个访客。
利用powerpivot 的discount函数对用户进行不重复计算,结果如下:
同时,采用数据透视表对不同的行为类型分组,得出在不同的行为下用户的人数,结果如下:
采用powerpivot建立各个表的链接关系,计算得出单个用户支付次数:
上图可以看到购买次数最多为22次,通过计算,用户的复购率62%,超过一半的用户有2次或2次以上的购买行为。
(3)用户行为类型之间的转化漏斗关系
i.由于收藏和添加购物车没有相应的承接关系,所以视为平行关系。
对于用户来说,当选择一件商品收藏或者添加到购物车,都是同等的行为,在顺序上是不分先后的,所以在此项目上我们是作为一个相加的阶段。由漏斗图可以明显的看到,在PV向收藏和添加购物车的数量所占的比例不高,只有5.10%左右的转化率。同时也有用户没有通过收藏和添加购物车直接购买,但比例所占较低。浏览页面的次数较多,但是使用收藏和购物车的功能较少。另一方面,通过收藏和添加购物车的功能实现支付的转化率高达20.31%,表明了这两项功能是实现最终转化的重要环节,商家可在这两个功能上多做活动,促使用户成交。
ii.因为支付是最终目的,从PV、收藏、添加购物车三种前期行为,可以得出每种行为与支付的转化率。
从计算得出的数据来看,购物车的转化率最高,收藏的转化率最低。前面表示这两张行为是相等的,但是对于用户消费而言,添加到购物车意味着购买倾向更高,尤其在有活动的时候,用户直接支付,减少竞争购买时间。
iii.不同行为的转化时间
上图所示,浏览到支付的平均转化时间是最短的,期间少了收藏或者添加购物车的功能,但是所占的比例低。购物车平均转化时长在27小时左右,比收藏的平均转化时长还短,结合转化率,购物车转化是作为商品成交的一个重要的关键点。
(4)基于时间维度分析用户的行为规律
i.基于行为的不同时点分布
由上图可以看出,每天的零点到早上的5点,各种行为数量都是快速下降,达到一天中的最低值。6点到10点处于快速攀升阶段,随后达到一个平稳阶段。在下午17点开始,用户的活跃度快速上升,在晚上的21、22点达到全天的最高值。商家活动可以根据用户的活跃时间展开。
ii.基于行为的不同日期分布
上图所示,在12月12日出现峰值,明显与双十二活动有关,添加购物车的行为数量激增,与活动的性质有关。由此可表明,添加购物车是实现支付的重要手段之一。
iii.用户行为一周中的时间分布
每周的活跃度相对稳定,由于双十二活动是星期五,出现了支付增加的现象,双十二前3天出现了添加购物车的行为增多,导致总体的数量比星期五的总量还多。周末的用户活跃度较为稳定。
iv.不同月份的用户行为规律
由于数据有超过一半的日期在12月,其次12月还有大型的消费活动,导致11月的各方面行为数据都要比12月低。
(5)RFM模型:找到核心,精准营销
通过RFM模型,实现差异化营销。数据基本上集中一个月内,所以在客户分类上处于联系紧密的。对于价值高的客户,作为重点客户关注,保持高质量的服务。价值偏低的客户,商家可以定期发送相应的优惠信息告知以保持较高的黏度,提高销售的捆绑率,增加购买的频率。
5.结论
本项目结合MYSQL,Excel,PowerBI多种数据处理方法展现,整个数据集的数据量大约100万,在数据分析上,针对整个流程做总结,结合业务指标,我们可以借用AAARR模型让项目更加清晰体现。
(1)获取客户(Aquisition):2014年12月12日是全年特有的大型消费活动,提前一个月推广大量活动,吸引用户,电商平台众多,商家需要做到让用户移情到淘宝。同时,我们在时间点上可以看到,晚上21、22点是消费的高峰期,平台展开活动可以选定在这个时间段。
在用户获取上,国内用淘宝的用户基数庞大,获取成本降低。老客户带动新客户,利用转发链接加快活动推广速度,商家通过折扣优惠吸引用户提前预定商品,利用口碑信誉获取新客户。
(2)提高活跃度(Activation):很多用户点击浏览的次数很多,但是至关重要的添加购物车和支付所占的比例很低。另一方面是商品本身,比如页面制作粗糙,在页面搜索的功能不够智能,分类不明确等原因会让用户丧失使用软件的兴趣。
改善建议:提高使用页面的智能化;增加多义词的搜索;提供同类商品的页面投放,增加选择的多样化;优化商品页面的关键词提示,让用户的第一印象更好。
(3)提高留存率(Retention):对于一个软件而言,怎么让用户经常使用,最好做到离不开。根据数据分析,可以将客户分类,重点针对不同类型的客户做相应的营销策略。商家可以多利用优惠折扣来留住客户,再推出新的产品,捆绑销售,售后服务质量要提高。大多数商家的客服因为与用户有摩擦使得以后拉入购物黑名单。潜在客户可以进行信息拜访,提高用户的印象度。
(4)获取收入(Revenue):根据每周/每月/每季度的复购率,留存率,流失率,广告投入等因素,对比同类商品的价格,合理定制价格。用户的购买金额,购买次数,购买偏好在页面推荐相应的商品。采用适合平台的策略促使用户有“这个平台有”的观念。
(5)传播(Refer):渠道是传播的通道,国内有微博、抖音、网上直播等快速传播渠道,病毒性是一个平台或者是一件商品快速被用户或者消费者所知的。同时,用户主动推送给新用户,新用户再推送给新用户,实现快速传播。