电商数据初分析
时间:2023-03-15 21:02:01 | 来源:电子商务
时间:2023-03-15 21:02:01 来源:电子商务
1、选择数据集选择数据集:淘宝和天猫购买婴儿用品的信息,表1购买商品字段,表2婴儿信息。
数据集来源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45表1数据集有29972条信息记录,共有7个字段,分别为:
- user_id:用户id
- auction_id:物品编号,即具体的商品编号
- cat_id:商品种类id, 以奶粉种类分类为例,则可分为1段/2段/3段/4段/孕妈奶粉/特殊配方奶粉/有机奶粉/羊奶粉(参考京东分类)
- cat1:商品种类id(商品一级分类)以母婴用品分类为例,则可分为妈妈专区/婴童寝居/奶粉/营养辅食/尿裤湿巾/喂养用品/洗护用品/童车童床/童装/童鞋(参考京东分类)
- property:商品属性,以奶粉为例,属性包括规格/包装单位/奶源地等信息
- buy_mount:购买数量
- day:购买时间
表2数据集有954条信息记录,共有3个字段,分别为:
- user_id:用户id
- birthday:出生日期
- gender:性别(0女性;1男性;2未知性别)
2、分析思路梳理通过这两张表格,我们想了解以下信息:
(1)整体的销售情况
- 年度销售情况
- 哪一类商品最受欢迎(销量最多)?
- 同类商品,哪个子类更受欢迎(销量最多)?
- 用户更喜欢在哪个时间段下单?即计算用户下单次数最多的时间
- 哪类商品分别在什么时间下单最多?
(2)购买数量最多的用户和购买次数最多的用户,找出高价值用户和忠诚度高的用户
(3)用户偏好
3、数据清洗(1)选择子集表1中property商品属性这一列为商品信息,里面信息多但与本次分析内容不相关,我们选择隐藏该列:
(2)列名重命名分别对标1表2的列名进行重命名
(3)删除重复值在购物场景i中用户可以多次重复购买,因此不对表1数据集进行去重;
表2中对用户id进行去重,没有发现重复值。
(4)缺失值处理用ctrl+G定位表1、表2均没有发现空值。
(5)一致化处理将表1、表2中的购买时间和出生日期按照yyyy-m-d类型设置时出现如下结果:
通过百度查找,需要进行分列处理,选择日期格式即可:
表2的列比较少,因此可以考虑用vlookup函数,通过统一的用户id将表1中的购买信息与表2相结合,丰富表2数据:
剩余列依次类推,在购买时间列时,却出现数字:
百度查询后,才发现是该列没有设置成日期格式导致,设置成yyyy-m-d日期格式后即恢复正常。
运用DATEDIF函数根据“出生日期”和“购买日期”计算出用户购买时的年龄:
计算后发现有错误值:
检查发现,原因是出生日期晚于购买时间导致,总共有143条错误数据。因为购买物品为母婴用品,可以推断是用户在孕期购买所致,可将这一部分数据剔除,单独生成一张表3,后续对用户孕期购买情况进行分析。
(6)数据排序对表1中购买数量列进行降序处理,可以看到用户2288344467在2014年11月13日购买了10000个编号为39769942518的物品,大手笔:
(7)异常值处理对表2的年龄进行筛选,发现有一个用户购买年龄为28,因母婴用品使用年龄一般在1-12岁内,因此判断为异常值,对这一条数据进行删除。
数据清洗后,表1数据集有29972条信息记录,表2数据集有811条信息记录。
4、数据分析(1)整体的销售情况表1收录了2012年第三、四季度、2013、2014全年和2015年第一季度数据,购买总数为76250。
销量最多的商品在表1数据透视表中选择商品种类(二类)作为列,物品编号作为行,将购买数量之和降序排列,得出类别为50018831的物品编号为39768842518销量为10000,销量最多;
哪一类商品最受欢迎(销量最多)?在表1数据透视表中选择商品种类(二类)和购买数量,得出50018831销量为12657,销量最多;
同类商品,哪个子类更受欢迎(销量最多)?在表1数据透视表中选择商品种类(一类)作为列,商品种类(二类)作为行,将购买数量之和降序排列,得出在6个一类中:
一类50014815中的子类50018831销量为12657,销量最多;
一类28中的子类50011993销量为3609,销量最多;
一类50008168中的子类50007016销量为2759,销量最多;
一类38中的子类211122销量为2058,销量最多;
一类122650008中的子类50012359销量为593,销量最多;
一类50022520中的子类50023591销量为487,销量最多;
此外,一类28中的多个二类商品购买数量远高于其他类别,说明这些商品为用户频繁购买系列,可重点关注。
用户更喜欢在哪个时间段下单?在表1数据透视表中选择商品购买时间作为行,将购买时间计数项降序排列,得出用户在11月份购买次数最多,达到3753次,其次是12月份,推断11月和12月为“双十一”、“双十二”活动所致。最低购买月份在2月份,可推断2月份为春节期间,快递停发所致。
哪类商品分别在什么时间下单最多?在表1数据透视表中选择购买时间作为列,商品种类(二类)作为行,将购买数量之和降序排列,得出:
用户在11月份购买50018831最多,达10906个;
用户在1月份购买50011993最多,1721个;
用户在12月份购买50012788最多,2827个;
用户在9月份购买5000716最多,2750个;
通过表格可发现用户更喜欢在下半年购买这几类商品,不知是否与商品的使用属性有关系。
(2)找出购买数量/次数最多的用户,定位高价值/忠诚度高的用户哪些用户回购次数多?在表1数据透视表中选择用户id作为行,用户id计数进行降序排列,得出:
id为814316568的用户下单次数最多,为4次。通过表格发现用户的下单次数多为1次,复购率不高。
哪些用户购买数量多?在表1数据透视表中选择用户id作为行,商品种类(二类)作为列,购买数量求和进行降序排列,得出:
id为2288344467的用户下单购买数量最多,为10000,用户117730165、173701616、1945590674、32141414购买数量也都在1000以上,属于高价值用户,后续需要重点关注。
(3)用户偏好不同性别的用户购买偏好?在表2数据透视表中选择性别作为列(0女性;1男性;2未知性别),商品种类(二类)作为行,购买数量求和进行降序排列,得出:
在购买总数上,女性是男性的1.82倍,尤其在种类50018831商品上,女性购买数量远高于男性,是其12倍。
不同年龄的用户购买偏好?在表2数据透视表中选择年龄作为列,商品种类(二类)作为行,购买数量求和进行降序排列,得出:
在购买总数上,0-3岁用户(并非购买人实际年龄)占购买总数的80%,其中
0-3岁的用户购买较多的种类为50018831、50013636、211122、50006602、50018825这5类。
(4)孕期购买情况在表3的143条数据进行数据透视,选择商品种类(二类)作为行,购买数量求和进行降序排列,得出用户购买总量为235,喜欢购买的种类分别为250822、50011993、50006602、50012456、50006032,推测这几类商品为初生婴儿用品或者孕期营养品。
5、总结- 11月份为销售高峰期,2月份为全年销售低谷;
- id为2288344467的用户商品种类(二类)50018831为销量最多商品,但是基本上由2288344467用户购买;该用户很有可能为经销商或者批发商,为高价值用户,可重点持续关注,防止流失;
- 大多数用户的下单次数为1次,复购率不高;
- 0-3岁用户(并非购买人实际年龄)占购买总数的80%,为婴儿用品购买主力,其中女童用品更受欢迎。