电商零售数据分析
时间:2023-03-15 21:40:01 | 来源:电子商务
时间:2023-03-15 21:40:01 来源:电子商务
一、提出问题
项目背景:
此次的数据集来自kaggle:Online Retail Data Set from UCI ML repo
包含了2010年12月1日到2011年12月9日在英国注册的非实体网上零售所有交易,公司主要销售独特的全天候礼品,该公司许多客户都是批发商。
本次的电子零售分析主要分为两个方面:
(1)了解该公司基本营运情况,通过分析计算运营的各项指标来了解目前经营的效率和经营趋势;
(2)通过RFM模型对用户进行分级,找出价值用户。
二、理解数据
1、导入数据分析相关库以及本次分析的数据集
2、查看导入情况以及理解字段含义
三、数据清洗
1、统计缺失率:
通过上图,我们可以发现用户ID和产品描述都存在一定程度的缺失,由于本次分析要研究用户的消费行为以及产品的销售情况,选择删除缺失数据
2、为后续方便统计,将订单日期拆分,增加年月日时间四个字段,并增加合计购买字段
查看数据
3、重复值处理:
4、异常值处理:
查看数据发现商品数量和单价存在负值,进一步查看异常数据
首先查看商品数量异常
输出结果看,数量为负数的订单都是订单号为C开头的退货订单,选把这部分数据放在另一个数据框内,后续进行分析
其次分析价格数量异常
查看数据发现单价为0的居多,查看单价分类
查询单价异常结果一共2512条,其中2510条单价为0,预计为促销赠品;另外还有2条单价是负数,明细为坏账记录,本次不做分析。
四、数据分析
1、运营指标分析:
选取商品数量及单价正常数据进行运营指标分析:
(1)月销售单数:
根据数据显示,2011年9月,10月,11月销售单数最多,且呈现稳步上升的趋势2011年11月达到最大值。
(2)月销售额:
从销售额方面看,2011年9月,10月,11月销售额明显高于其他月份,结合前面的月销售单数,11月份单数量高于十月份38%左右,但是销售额只比10月份高出12%左右,明显可以看出10月份销售效果好于,需了解11月份是否有举办大型促销活动。
(3)月平均销售额:
(4)客单价:
由计算结果可知客单价为2048.69英镑。
(5)件单价:
由计算结果可知,每件产品的平均价格为1.73英镑。
6)退货率:
可以看出,退货率最高为2011年1月和12月,高于平均退货率8%,特别是12月,具体情况应该与相关部门沟通是什么原因导致,并且可以分析前几年的退货率,是否存在同样的问题。2、RFM模型分析: RFM模型是衡量客户价值和客户创利能力的重要工具和手段。通过分析一个客户的近期购买行为,购买的总体频率以及花费的金额三项指标来描述该客户的价值状况。R-Recency:最近一次消费
F-Frequency:消费频率
M-Monetary:消费金额
分别查看R/F/M的值,对其设置合理阈值,进行分层
查看R值:
可以看到,截至2011年12月9日,最后一次消费距离截止日期的天数平均为92天,方差为100,波动较大,距离天数最大超过一年。
查看F值:
#由于极值的影响,可视化不明显,考虑剔除异常值查看频次小于50的
可知,在2010年12月1日至2011年12月9日时间内,用户评价消费4.2次
查看M值
#查看金额小于2000分布
可知,由于存在极值,平均值会被影响,通过查看中位数,可知整体评价金额为668元
五、建立RFM模型
这里使RFM得分的平均值为阈值,得分大于平均值设置为得分高,小于平均值设置为得分低
把三个得分用字符串拼接的方式组合在一起:
去除字符串空格:
对结果进行可视化:
通过RFM模型对用户进行分层,得到八个类别的客户。根据上面的数据可知,该公司重要价值客户,重要发展客户占比比较大,达到47%,对于重要发展客户,由于最近交易较少,建议及时推送公司活动及相关产品信息,唤回客户;其次最多的为一般发展用户和一般挽留客户,站总客户数40%。针对一般发展用户,应获取该类用户详细数据进行用户画像,了解用户消费需求,及时推送产品信息,对于重要保持客户和重要挽留客户,以赠送优惠券或者推送折扣信息等措施增加用户的活跃度。
: