数据分析 -- 电商母婴销量
时间:2023-03-26 08:16:02 | 来源:电子商务
时间:2023-03-26 08:16:02 来源:电子商务
数据来源
阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45数据包含两个表格:表1购买商品、表2婴儿信息
理解数据表1“购买产品”总共有8列,29972行,列名分别是:
- user_id: 和表格“婴儿信息”中的user_id一一对应
- auction_id: 产品ID,从英中翻译来理解auction_id比较困难,从官网上可以看出来auction_id就是item_id,也就是产品编号,用于识别这个产品
- cat1: 产品一级分类ID(官网英文全称为Root Category ID)
- cat_id: 产品二级分类ID(官网英文全称为Category ID)
- property: 产品特性(官网解释为Property of the corresponding item)
- buy_mount: 购买数量
- day: 购买日期
表2“婴儿信息”总共分为3列,954行,列名分别是user_id, birthday和gender:
- user_id: 客户编码。每一个客户都有一个唯一编码,用于识别这个客户
- birthday:客户的婴儿出生日期。不同年龄段的婴儿,使用的产品,比如奶粉、尿不湿是不一样的
- gender:婴儿性别。男婴儿和女婴儿在产品上的使用也不一样,比如说服装
数据从用户、行为、产品可以分为用户数据:
- user_id(用户ID)
- birthday(婴儿生日)
- gender(婴儿性别)
行为数据:
- buy_mount(购买数量)
- Purchase_day(购买日期)
产品数据:
- item_id(产品ID)
- category1(一级分类产品)
- category2(二级分类产品)
- property(产品特性)
提出问题及分析思路
分析过程
这次使用的数据是电商产品的销售数据,所以我们从销量的角度出发,来提出和分析问题。在数据理解部分我将数据划分为产品数据和用户数据,所以根据
多维度拆分分析方法,将销量从产品和用户两个维度来划分。
产品维度先从时间上将销量拆分为年销量和月销量,利用
对比分析方法进行对比,再使用
假设验证分析来寻找销量变化的原因
注意:购买时间的范围是从2012年到2015年,但是因为2012年和2015年的数据不完整,分析的时间范围限制在2013年和2014年
从图表中可以看出,2014年是2013年总销量的近2倍。具体分析,2014年11月的销量是2013年11月的销量的5倍,是2014年销售量增加的主要原因。所以我们具体分析:2014年11月份的销量为何大增?
因为销量 = 购买次数 * 每次平均购买量,将销量划分为购买数次和每次平均购买量。根据
假设验证分析方法,提出如下两个假设:
- 2014年的购买次数远大于2013年的购买次数
- 2014年的每次平均购买量远大于2013年的每次平均购买量
收集数据如下:
| 2013年11月 | 2014年11月 | 倍数 |
---|
购买总量 | 2538 | 13044 | 5.14 |
---|
购买次数 | 1153 | 1833 | 1.59 |
---|
每次平均购买量 | 2.20 | 7.12 | 3.24 |
---|
假设验证分析过程和结论如下:
结论:2014年11月销量大增的主要原因是因为每次平均购买量大幅增加。
继续分析每次平均购买量增大的原因,给出两个假设:
- 大部分客户的购买量都在提升,比如有可能是用户本身需求变大,产品新功能复合市场需求,竞争对手变差等
- 少部分客户的购买量大幅提升,体现为小部分订单的购买量很大
接下来对2014年11月和2013年11月销量做描述性统计分析,统计数据如下:
| 2013年 | 2014年 |
---|
Mean | 2.201214224 | 7.116202946 |
---|
Standard Error | 0.433192894 | 5.456867438 |
---|
Median | 1 | 1 |
---|
Mode | 1 | 1 |
---|
Standard Deviation | 14.70943452 | 233.6278629 |
---|
Sample Variance | 216.3674638 | 54581.9783 |
---|
Range | 409 | 9999 |
---|
Minimum | 1 | 1 |
---|
Maximum | 410 | 10000 |
---|
Sum | 2538 | 13044 |
---|
Count | 1153 | 1833 |
---|
Largest(5) | 80 | 100 |
---|
Smallest(5) | 1 | 1 |
---|
- 看方差或标准差,差异很大,数据分布范围很广,说明不是因为大部分客户的购买量在提升,可以排除假设1
- 看排在第5位的最大值,也就是Largest(5)一栏,分别是80和100,差异也不大,但是最大值410和10000的差异巨大,复合假设2:少部分客户的购买量大幅提升。而且很大可能性是由于极个别订单造成的
于是,将2013年11月和2014年11月单笔销量top10的数据做图表分析:
可以看出2014年的最大订单(购买量为10000)是造成数据的主要原因,将这个数据去掉,2014年11月的每次平均购买量下降为1.66,低于2013年11月的每次平均购买量
| 2013年11月 | 2014年11月(去掉最大订单) | 倍数 |
---|
购买总量 | 2538 | 3044 | 5.14 |
---|
购买次数 | 1153 | 1832 | 1.59 |
---|
每次平均购买量 | 2.20 | 1.66 | 0.75 |
---|
所以假设2:少部分客户的购买量大幅提升,成立
购买总量受到了其中一个大订单的影响,为了去除这个订单对整体数据的影响,现在直接对2013年和2014年的每月购买次数进行分析:
可以看出销售高峰期分别是11月和5月。因为11月有双11活动,所以销量较大。而5月份的节日较多,估计商家也推出了较多的促销活动,所以销量也比较大。
可以看出销售高峰期分别是11月和5月。估计11月有双11活动,所以销量较大。而5月份的节日较多,估计商家也推出了较多的促销活动,所以销量也比较大。
现在分别做验证:
可以看出:2013年和2014年11月份购买次数最高的时间正好是11月11日,符合假设
可以看出:2014年5月销量较高的日期分别是5月12日、5月20日和5月26日;2013年5月销量较高的日期是5月14日、5月22日、5日27月;这些时间正好在母亲节、520节日和儿童节附近,符合假设
现在从产品分类的角度来分析,产品有一级分类产品、二级分类产品,这里主要是用到一级分类产品数据。一级分类产品的销售情况如下
- 销量最多的三种分类产品分别是28、50014815、50008168
- 销量最低的三种分类产品分别是122650008、50022520、38
同样运用到,销量 = 购买次数 * 每次平均购买量,提出两个假设:
- 销量大的产品购买总次数多
- 销量大的产品每次平均购买量更大
将一级分类产品销量和购买总次数对比,可以看出销量越大的产品购买总次数越多,假设1成立
在计算每次平均购买量时,我将2014年11月购买量为10000的订单删除掉,因为10000的订单在整个数据中非常少见,与每次购买量的中位数、平均数和四分位数的差值也非常大。得到如下图表:
可以看出:畅销产品的次均购买量比不畅销产品的相对多些,但优势并不明显,假设2不成立。
所以,畅销产品主要是因为购买次数更多。而购买次数由新客户购买和老客户购买次数购买。如果老客户购买次数越多,说明复购率越高,反之则新客户购买次数越多。
数据分析如下:
可以看出,和整体销量比较,每一产品的复购数量都是非常低的,所以销量大的产品主要还是因为新用户比较多。
用户维度先从性别维度出发,分析男性婴儿和女性婴儿的购买量和购买次数对比
可以看出女性的购买量比男性的高出为67.3%,同时购买次数也比男性的略高出一点。
接下来看男性婴儿的购买偏好:
男性婴儿购买最多前三类产品是50008168、28、50014815
女性婴儿的购买偏好:
女性婴儿购买最多前三类产品是50014815、50008168、28
接着从年龄维度分析,对不同年龄的购买量进行排序,结果如下:
购买最多的前三个年龄分别是0岁、1岁、出生前
现在分析0岁、1岁、出生前婴儿各自的购买偏好
0岁婴儿不同类别产品的购买量:
0岁婴儿购买最多前三类产品是50014815、50008168、28
1岁婴儿不同类别产品的购买量:
1岁婴儿购买最多前三类产品是50008168、38、50014815。值得注意的是产品38虽然总销量不太好,但是在1岁婴儿中销量可以排到第二
出生前婴儿不同类别产品的购买量:
出生前婴儿购买最多前三类产品是50014815、50022520、28。值得注意的是产品50022520虽然总销量不太好,但是在出生前婴儿中销量可以排到第二
结论与建议
- 一个大数量订单(订单数为10000)影响到了整体的销售数据
- 除去这个大数量订单,销售量在5月和11月比较突出,分别是因为节日较多和双11,建议以后在这两个月份多备货
- 销量最多的三个产品分别是28、50014815、50008168,主要因为新用户较多
- 女性的购买力要高于男性。不同性别的购买偏好不同,但只是排序上的不同。男性婴儿购买最多前三类产品是50008168、28、50014815,女性婴儿购买最多前三类产品是50014815、50008168、28。建议对男性和女性婴儿做广告推广时,不同的产品使用不同推广力度
- 不同年龄的购买力也不同。购买力最大的前三个年龄分别是0岁、1岁、出生前婴儿。在资源有限的情况下,可集中资源向这三个年龄做推广
- 0岁、1岁、出生前婴儿的购买偏好也不太一致,但主要购买的产品仍集中在50014815、50008168这两个产品上。50022520和38虽然总销量偏低,但是它们分别在1岁和出生前的销量还不错。建议对各不同年龄段的婴儿做广告推广时,不同的产品使用不同的推广力度