母婴电商数据集分析
时间:2023-03-26 04:10:02 | 来源:电子商务
时间:2023-03-26 04:10:02 来源:电子商务
本文应用的数据集为淘宝天猫母婴数据集,来源为阿里云天池数据(https://tianchi.aliyun.com/dataset/dataDetail?dataId=45)。
一、分析目的- 用户角度:通过数据分析,深入了解用户信息、用户行为、用户喜好,并有针对性地为不同客户推荐不同商品,以提高用户的人均购买量和复购率。
- 产品角度:发现以往销售表现中存在的问题,解决问题,提高产品总销量。
二、理解数据- 数据集1为tianchi_mum_baby_trade_history(表1购买产品),此数据集包含了淘宝用户的交历史易信息,其中有7个字段和29971条记录。
字段含义如下:
item_id(商品ID):用于识别不同商品。
user_id(用户ID):用户ID用于识别淘宝天猫的每一位用户。
cat1(商品一级分类):例如童装、洗护用品、孕产妇穿搭。一级分类下会有二级分类
cat_id(商品二级分类):儿童外套和儿童裙子(一级分类为童装)、纸尿裤和婴儿湿巾 (一级分类为洗护用品)、孕妇装和哺乳文胸(一级分类为孕产妇穿搭)
property(商品属性):代表对应商品的参数。例如某奶瓶的品牌、颜色分类、容量和口径大小。
buy_mount: 购买数量。
day(购买日期):对应商品被购买的日期。
2. 数据集2为tianchi_mum_baby(表2婴儿信息),此数据集包含了婴儿父母所提供的婴儿信 息,其中有3个字段和953条记录。
字段含义如下:
user_id(用户ID):与数据集1中的用户ID相对应。
birthday(婴儿出生日期):可用于计算当前每一位婴儿的年龄,并根据年龄推荐相应商品。
gender(婴儿性别):"0"为男,"1"为女,"2"为未知。可根据同婴儿性别推荐适合的商品。
三、提出问题- 购买母婴产品用户的宝宝的年龄分布
- 不同性别宝宝的购买偏好
- 最受欢迎的产品(一级类别)是什么?
- 复购率最高的产品(一级类别)是什么?
- 产品各年的月销量是否有较大波动,波动的原因是什么?
分析思路图四、数据清洗1.选择子集
在此步骤中,我们可以选择需要进行数据分析的几个列,并将不需要的字段进行列隐藏。根据业务问题,我们暂时不需要表1property(商品属性)这一列的信息,所以我们可以先将此列进行列隐藏。
2.数据重命名
为了方便对数据后续的分析和使用,我们可以通过双击列名将英文列名修改为中文。
3.删除重复值
表2婴儿信息中的用户ID应该是唯一的,因此,我们可以点击数据选项卡下的删除重复项来删除重复的数据。在此数据集中未发现重复项。
4.缺失值处理
点击唯一标识用户ID,屏幕右下角会显示列总数。与其他列的列总数对比,我们即可知道其他列的缺失值的个数为多少。在此步骤中,我们可以发现,数据集1和数据集2均不存在缺失值。
5.一致化处理
为了便于我们对数据的理解和使用,我们可以将用数字识别的婴儿性别信息更改为中文。此步骤可应用IF函数实现,if函数语法为if(逻辑测试,正确时的返回值,错误时的返回值)。
6.数据排序
排序的步骤为:点击开始-排序和筛选-点击自定义-选择根据哪一列排序-选择升序或降序。
在表1中,我们根据购买数量进行降序排序,可以得知2014年11月销量最高的产品编号为39769942518,购买用户为2288344467,销量为10000。在表2婴儿信息中,根据出生日期进行升序排序,可以得知客户宝宝中出生最早的出生日期为1984年6月16日(异常值)。
7.异常值处理
先点击筛选,再点击每一列名的下拉箭头可以得到每组字段所包含的全部数据类别。通过排查,我们发现表2的出生日期中有一个宝宝的出生日期为1984年,可能的原因是父母录入了错误的日期,因为我们可将此行信息删除。
五.分析问题1、购买母婴产品用户的宝宝的年龄分布如上图所示,有约1/3的宝宝位于0-3岁年龄段,而仅有不到1%的宝宝位于9-12岁年龄段。
此外,按性别进行多维度拆分,我们还可以得知各个年龄段不同性别的占比。如下图所示,随着年龄的增长,女宝宝的占比越来越高。
结论:0-3岁的宝宝用户数占比最高,9-12岁宝宝用户数占比最少。小于3岁的用户男女占比较为均衡,但随着年龄的增大,女宝宝占比也逐渐增大。 2. 不同性别宝宝的购买偏好如上图所示,不同性别的宝宝对6种不同类别的商品的偏好无明显差异。具体来说,与其他5种类别的商品相比,50008168在男宝宝(占比39.5%)和女宝宝(占比43.44%)中均最受欢迎,且在女宝宝中更受欢迎。
按年龄段进行多维度拆解,我们还可以得知不同年龄段不同性别宝宝的购买偏好。如下图所示,无论在男宝宝中还是女宝宝中,50008168的购买量占比都随着年龄的增大增大,而50014815的占比都随着年龄的增大而减小。值得注意的是,由于9-12岁年龄段的样本数较小(男1人,女4人),所以结果可能不具有参考性。
结论:不同性别的宝宝对产品的喜好无明显区别,但50008168类的产品在男女宝宝中都最受欢迎,喜欢50008168类产品的用户数占比随着年龄增大而增大,而50014815的占比都随着年龄的增大而减小。3. 最受欢迎的产品(一级类别)结论:销量最好的Top3一级类别分别为28、50014815和50008168。4. 复购率最高的产品(一级类别)结论:所有类别的母婴产品的复购率均低于1%。复购率最高的产品类别为38,而50022520和122650008的复购率为0。5. 母婴产品各年的月销量是否有较大波动,波动的原因是什么?如上图所示,整体来说,各年的月销量均波动较大。2012年的月销量在9月和11月都有明显上升,且在11月销量达到顶峰。2013年的月销量在7月、9月和11月的月销量有明显上升,且在12月到达峰值。2014年的月销量在5月和9月均有明显上升,且在11月达到峰值
用假设检验分析方法对各年月销量的波动的原因进行分析问题1:为什么2012年、2013年和2014年的月销量在9月均有明显上升?假设1:由于9月10日是教师节,商家有针对教师节的促销活动,导致销量上涨。
假设2: 由于10月1日是国庆节,买家在9月提前为国庆节购买了过节所需商品。
收集证据 :2012-2014年9月销量趋势如上图所示,在2012-2014年的9月10日当日(教师节)我们没有发现销量有明显的涨幅,但在9月6日销量出现小高峰。此外,在历年的9月20日-9月25日期间,日销量均出现较明显的涨幅。
2012-2014年9月下旬至10月上旬销量趋势对比如上图所示,2012-2014年的9月下旬的日销量整体高于10月上旬的日销量。日销量在9月20-9月29日出现多次小高峰,从9月30日开始日销量出现明显下跌,直到10月3日才开始出现较明显的增长。
结论:在历年的9月6日,日销量均出现小高峰。因此,买家可能是为了教师节提前购买礼品,假设1成立。在历年的9月20-29日期间,日销量均呈现出小高峰,且9月下旬的日销量整体高于10月上旬日销量。因此,买家可能在九月下旬为庆祝十月的国庆节提前购买了所需商品,并提前满足了购买需求,假设2成立。问题2:为什么2013年和2014年5月的销量都出现小高峰。假设:5月节日较多,例如劳动节在5.1日、青年节在5.4日、母亲节在5.12日左右。收集证据:如上图所示,在2013年的5月3日、5月10日,5月20日的日销量均出现小高峰。在2014年的5月3日、5月12日、5月22日的日销量也呈现小高峰。
结论:在2013年的5月和2014年5月,尤其是劳动节和母亲节前后的近几日销量呈现多次小高峰。因此,可能由于5月的节日较多且商家的促销活动也较多,导致了5月份总销量明显上升,假设成立。问题3:为什么2012-2014年的月销量在11月的环比涨幅十分明显?假设:双11大促活动。
收集证据 :2012-2014年11月销量趋势如上图所示,2012年的11月10日和11月19日销量出现小高峰,2013年的11月11日和11月29日出现小高峰,2014年的11月11日和11月13日销量出现小高峰。
结论:11月11日为淘宝最大型的购物狂欢节,促销力度大,因此导致了11月份的销量涨幅明显,假设成立。六. 结论用户角度:
- 购买母婴产品的用户中,大部分的宝宝位于0-3岁年龄段,而只有不到1%位于9-12岁年龄段。
- 未出生的宝宝,男女占比较为均衡。但随着年龄的增长,女宝宝的占比逐渐增加。
产品角度:
- 28、500148145和5008168为最受欢迎的三种商品类别,且50008168的购买量占比随着宝宝年龄的增大增大。
- 无论是老用户的人数占比还是各类商品的复购率都较低,反映出母婴产品的用户粘性低。
- 5月、9月由于节日较多,用户购买需求较大,导致月销量涨幅明显。11月由于双11大促,也使11月的月销量涨幅明显。
七、建议- 调整对应不同年龄段和性别宝宝的产品的数量和种类。例如采购更多针对年龄段较大女宝宝的商品样式,使商品能吸引更多的女宝宝的父母购买。
- 将销量Top3类别的商品特别是50008168在首页推荐为热销类别,吸引更多用户购买,且要提前准备好库存。
- 预测用户的宝宝的年龄,根据年龄推荐相应的热销商品,提高复购率。
- 抓住用户在节日期间对普通商品和礼品的需求量较大的机会,多举办促销活动,发放满减券等等,以提高销量、销售额。