数据分析之路——电商数据进行分析
时间:2023-03-15 21:10:02 | 来源:电子商务
时间:2023-03-15 21:10:02 来源:电子商务
一、背景介绍
本次数据依然选择使用kaggle上公开的商品零售数据,数据获取地址:
https://www.kaggle.com/puneetbhaya/online-retail该数据包括了541909个交易,商品总量达5176450,数据包括了8个字段。
二、提出问题
对数据集的关键指标进行观察,进而评估电商的运营情况以及需要改进的方向。因数据集仅含有8个字段,分析思路拟按下图展开:
1.平台销售情况
交易额度趋势
订单变化趋势
不同产品的订单情况
客单价变化情况
电商在各个国家的销售情况
三.数据清洗
1.选择子集
根据想要解决的几个问题,所涉及的字段为发票代码、产品、销量、购买日期、单价、会员ID、国家7个字段,因此隐藏股票代码字段。除上述7个字段之外,再额外新增总价字段(总价=销量×单价)。
2.重命名列
该数据无需此操作。
3.删除重复项
本数据集无法利用单个字段对数据进行删除重复项的操作。因此本次根据发票代码和商品名称(不考虑同一张发票出现两次及以上相同商品名称的情形)两个字段对数据进行删除重复项的操作。
4.填充缺省值
删除重复项后经复核,除产品名称及会员ID外,其余字段的数量都为531041项,产品字段为529587项,会员ID字段为396578项。且产品、会员ID的缺省值都为空白。因此,本人先将产品的缺省值都填充为123456,再添加一个辅助列,用于判断产品名称是否为123456(if(产品名称所在的列=123456,0,1)),对数据进行降序排列,删除,消除产品名称为空时对数据的影响。
再将会员ID为空的单元格都用99999填充(此部分购买者为非会员)。
在填充过程中,发现部分产品销量为负值、单价为负值和产品名称为“?”的情形,因此提前先对销量、单价和产品三个字段进行异常值处理。
(1)销量为负值
新增辅助列判断销量单元格的值是否小于0(if(销量所在的列<0,0,1)),对数据进行降序排列,删除,消除销量为负值对数据的影响。
(2)单价为负值
新增辅助列判断单价单元格的值是否小于0(if(单价所在的列<0,0,1)),对数据进行降序排列,删除,消除单价为负值对数据的影响。
(3)产品名称为“?”
新增辅助列判断产品单元格的值是否为?(if(销量所在的列=?,0,1)),对数据进行降序排列,删除,消除产品为“?”对数据的影响。
经过该步处理后,8个字段全为519967项。
5.一致化处理
对购买日期进行一致化处理,因本次分析并不涉及具体的时刻,因此将购买日期单元格格式改为年月日的格式,如下图所示:
6.排序
该数据无需此操作。
7.异常值处理
已在第4步填充缺省值中对销量、单价和产品三个字段进行异常值处理。其余字段(发票号码、购买日期、总价、会员ID、国家)均正常。
四.分析使用excel透视表等功能可以得到要分析问题的结果。我们分别来看一开始要研究的问题。
1.平台销售情况
(1)交易额度趋势,订单变化情况
现有数据范围为2010年12月1日~2011年12月9日,按月进行同比增长分析不具备条件。按月份分析仅能分析2010年12月~2011年11月期间的数据。
由上表及上图明显可知,交易额度和订单变化情况在2010年12月1日~2011年12月9日期间保持一致。
2月份和4月份销量及销售额出现了明显的下降,下半年从9月份开始销量及销售额出现了明显的增幅,11月份到达了顶峰。
分析如下:2月份销量下降会不会因为出现了类似国内春节的假期,导致大部分销售人员和快递人员放假,导致销量下降。4月份无重大节日,具体原因需收集到时间序列更长久的销售数据和更多的厂家信息才能分析。
9月份及以后,商家是不是开始了商品的优惠促销,并且在11月份的时候,促销力度达到了最大(类似国内的双11)。为证实此想法,将对同一产品各个月度的单价进行分析。
筛选了部分产品的各个月度单价表通过上图发现大部分产品11月的价格并非最低(普遍比1月份~11月份的平均价格高)。
因此怀疑图中所选的商品可能不具备代表性。只能先从销量出发,寻找9~11月份销量最高的几种商品,这几种商品9~11月份的单价是否为全年最低。
9~11月份,销量最高的5间商品分别为POPCORN HOLDER,RABBIT NIGHT LIGHT,WORLD WAR 2 GLIDERS ASSTD DESIGNS,JUMBO BAG RED RETROSPOT和PAPER CHAIN KIT 50'S CHRISTMAS。该5件商品的历月单价如下表所示:
该5件商品的9~11月份的单价普遍是较优惠的。因此验证了上述的想法:9月份~11月份期间,商家开始了部分商品的优惠促销,以提高商品的销量。
(2)不同产品类的订单情况
商品销量TOP10
上述10种产品为2010年12月1日~2011年12月9日期间销量最高的商品,但第1名PAPER CRAFT , LITTLE BIRDIE的销量是第10名MINI PAINT SET VINTAGE销量的3倍,差距54362件,差距较大。商家应根据PAPER CRAFT , LITTLE BIRDIE的成功经验,尽量改善其他商品的性能及品质,以提高商品销量。
(3)客单价
客单价的统计除去非会员所购买的产品(因为数据集中非会员无会员ID,无法统计人数多少)。
(4) 电商在各个国家的销售情况
每个国家的商品销量
由透视表可知,商品销售量、销售额排名前三的国家分别为英国、荷兰和爱尔兰。
每个国家的商品种类总量
由透视表可知,商品种类总量排名前三的国家分别为英国、德国和法国。
由上述两个表格可知,商品种类排名靠前的德国和法国,商品销售量、销售额不及荷兰和爱尔兰,表明电商在荷兰和爱尔兰更受欢迎,因此可据此,商品资源(种类和数量)可适当的往荷兰和爱尔兰进行倾斜。
五.分析总结和建议为更好的帮助电商提高销量,增加收入,提出以下几点建议:
1.电商2、4月份的销量下降,应总结销量降低的原因,可以参考9~11月份的商品销量及销售额,通过适当降低单价或分发优惠券等众多促销方式来提高销量。
2.商家应参考销量好的产品,如PAPER CRAFT , LITTLE BIRDIE等受大众欢迎的产品,研发或改善其他商品的品质和性能。
3. 商家在11月份的时候,可参考国内双11,将均价降到全年最低,以提高商品销量,再创辉煌。
4.电商在荷兰、爱尔兰比在德国、法国更受欢迎,因此,商品资源(种类和数量)可适当的向荷兰和爱尔兰进行倾斜。