深度分析——婴儿品类电商数据
时间:2023-03-26 05:32:01 | 来源:电子商务
时间:2023-03-26 05:32:01 来源:电子商务
分析背景及目的
(一)背景
自从2008年“毒奶粉”事件之后,母婴类产品的质量问题,安全性一直都被父母长辈摆在首位,不少父母给孩子更换成价格更昂贵的进口奶粉。几年过去了,那么如今他们在购买过程中会受到哪些因素的影响呢?下面让我们通过一份母婴类产品电商数据集探索一下数据背后的规律。
(二)目的
希望可以通过此次分析获得一些有利信息可以在日后工作中改善店铺运营情况,以及可以通过这一份数据探索孩子年龄与购买产品之间的规律。
数据集
数据来源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45表一数据29940行,表二数据943行
字段含义:
表一商品信息表表二婴儿信息表提出问题
针对上述字段我们提出如下问题:
- 为了更好的为客户做推荐,能否通过客户曾经购买的产品预测婴儿年龄?
- 婴儿性别不同会对需求产生影响吗?
- 为了针对的开展营销活动,该店铺业绩周期性如何波动?
- 该店铺复购率如何,是否还有提升空间?
选择子集
考虑到分析的问题,所以将property 和auction 字段数据隐藏,优化界面。
整理数据
1.删除重复值处理,表一考虑到同一个客户会复购产品,肯定会有重复user_id,所以只对表二做删除重复值处理。表二未发现重复值。
缺失值处理
经检验,表一表二主要字段均未发现缺失值。
一致化处理
通过分列,将day字段内数据转变成日期格式。然后通过vlookup将表二中的birthday字段和gender字段移动到表一中,调整好格式,计算出购买产品时的婴儿年龄。
异常值处理
- 通过筛选可以看到客户单人购买数量有大于100的,我们将大于100的作为异常值删除处理,真实工作中应该和数据提供的部门做沟通,是否数据出现了问题,问明原因。
- 将性别一栏中性别数字为2的信息做异常值删除处理。
- 将年龄一列的小于等于0岁的儿童做1岁处理,考虑到是为将要出生的孩子购买,或者孩子年龄不足一周岁的。将大于10对的孩子信息做异常值删除处理。
构建模型
①为了更好的为客户做推荐,能否通过客户曾经购买的产品预测婴儿年龄?
图一图二从图一中可以看出,主要客户群年龄在0-5周岁,其中0-2周岁消费数量占比74.67%。因此可以判断五大品类产品主要面对的客户群体是0-2周岁的婴儿。由图二中可以看出28/50008168/50014815品类产品比较受0-2周岁的家长的喜爱,所以当新顾客进店浏览以上三个品类产品时,大致可以判断出其孩子年龄会在0-2周岁之间。
②婴儿性别不同会对需求产生影响吗?
图三图四从图三中可以看出男婴的消费需求量比女性婴儿高,但是从图四中可以看出不论男婴女婴对各品类的产品比例是非常相似的。考虑以上,可能有两种原因:①、确实五大类产品更受男婴的父母的喜爱。②由于样本本身数量太少,显示的结果比较片面。
③为了针对的开展营销活动,店铺业绩周期性如何波动?
图五图六图七由于2012年和2015年数据缺失,所以不以年为单位做数据分析。图五中2013和2015年的2月和1月相比,业绩都会出现比较大的下滑情况。考虑到年底快递停运的情况,猜测数据是合理的。继续深入分析数据,从图6,图七中可以看出每年一月下旬和2月上旬销量都比较低,经查询发现2014年1.31号,2013年2.10号为春节,所以在这时间前后销量比较低是正常的。
④该店铺复购率如何,是否还有提升空间?
图八数据总量29940条,可以计算出复够率=52/29940=0.83%。销量=访客数*转化率*客单价*购买频次,当复购率低等于购买频次低,所以想要提升业绩,复购率 需要提升。在AARRR模型的获取客户收益过程,我们需要关注顾客夹点问题,分析从挑选商品—加入购物车—生成订单—支付过程中顾客放弃下一步的原因,针对性的实施行动,由此提升转化率,复够率。
建议
- 经过分析发现大部分购买五大品类产品的客户孩子在0-2岁,所以当遇见新顾客浏览这些产品时可以适当的推荐0-2岁儿童所需产品。
- 通过AARRR模型发现在第四环节中出了问题,那么可以优化从浏览商品到支付各环节的步骤措施,比如没有购物车,看好商品直接下单或者拼单时候可以不用等人凑齐直接先下单,人没有组满在退款。人得到100块钱的喜悦比不上损失100块钱的痛苦,所以这会刺激人们去找人拼团,拉高的销量。
- 受春节影响,1或者2月业绩会出现比较大的下滑,所以在这期间,减少推广资源,避免成本浪费。