淘宝电商母婴产品探索
时间:2023-03-26 02:56:01 | 来源:电子商务
时间:2023-03-26 02:56:01 来源:电子商务
明确问题1. 什么时间段的销量最好。
2. 什么一级类目销量最好。
3. 不同性别、年龄用户的商品一级类目喜爱偏好。
理解数据- 数据集解释
该数据集分为两个excel表格
表1——购买商品(sam_tianchi_mum_baby_trade_history.csv)
表2——婴儿信息(sam_tianchi_mum_baby.csv) - 不同表中字段含义
1)表1购买商品字段
· 用户ID:购物交易用户标识,相当于外键,可以重复
· 商品ID:商品订单标识,数据表的主键,可重复
· 商品二级类目:商品种类ID,表示商品属于哪个类别
· 商品一级类目:商品种类ID,表示商品属于哪个类别
· 商品属性: 产品特征,数据中以数字字符串代表
· 购买数量:交易数量
· 购买时间: 交易完成日期
2) 表2婴儿信息表字段
· 用户ID:平台注册用户唯一标识,不可重复
· 出生日期:婴儿生日
· 性别:婴儿性别,0 女性;1 男性;2 未知的性别
因商品属性、商品二级类目、商品ID在本次分析中没有使用,故隐藏数据。
数据清洗选择子集:选择表2所有信息及表1除商品属性、商品二级类目、商品ID信息;
列名重命名:列名清晰不需替换;
删除重复值:经检验发现,表1、表2均无重复数据;
缺失值处理:将表1、表2按用户ID连接,发现缺失大多有购买行为的用户的性别及出生信息,按未知处理;
一致化处理:将表1、表2中的日期部分转换为 YYYY/MM/DD 格式;
数据排序:在数据分析中进行;
异常值处理:无异常值。
数据描述统计分析总结销量最多的一级类目为 28,但更多的男婴和女婴用户更倾向于购买 50008168 类目下的商品,购买类目为 28 的商品的用户可能多为批发购买的大量商品的订单。
第四季度销量最高,可能主要是由于双十一的影响导致销量增多。但2014年可能存在变化导致销量大幅度增长。
1.不同一级类目销量分析由上图可以看到,销量最多的为 28 品类是商品,平均客单数为 4.10,而所有品类的商品的销量上四分位数都为 1,可以推测大多数用户购买该类目下的商品数为一个,决定其销量高的可能是大量订购数的订单。
2.不同时间段销量分析季度由上图可知,第四季度的销量最高,但由于 2012年 和 2015年 的数据不完整,可能会导致数据不准确。第四季度中销量最高的月份为 11 月,第三季度中销量最高的月份为 9 月,第一季度为 1 月,第二季度为 5 月。下面将对销量较高的月份进行分析,判断销量高可能的原因。
高销量月份细拆通过细拆可发现,11.11、11.13、09.20、01.12、05.22的销量属于该天在所在月中销量最高,推测 11月份 可能是双十一的原因。
细拆发现,11.13 在2014年销量远高于2013、2012年,而双十一在 2009 年就出现,有可能是有新的营销策略导致销量升高,可在后续的探索里寻找原因。
星期因有一个周四为 11.13 号贡献了 10061 个购买订单,但其出现高订单的原因与星期无关,所以将该天数据排除后,可观测到,周五、周一、周六的销量最好,所以母婴用品的用户倾向于在周五、周一、周六进行消费。
3. 不同性别用户的销量情况根据图标可知,女性用户和男性用户的整体占比相近,但女性的销量与男性的销量比接近6:4,女婴的消费数量更多。但仍有大量无性别信息的订单,可能无法反应整体情况。
女婴和男婴用户均倾向于在第四季度购买商品。(可能受 2012、2015数据影响)
女婴更倾向于在周二、周三、周六进行消费而男婴更倾向于在周一、周五、周二进行消费。
更多的女婴和男婴倾向于购买 50008168 类目产品。而适中的女婴用户购买了 50014815 但总购买量最多。