婴幼儿用品在电商行业的购买分析
时间:2023-03-26 07:56:01 | 来源:电子商务
时间:2023-03-26 07:56:01 来源:电子商务
婴幼儿用品在电商行业的购买分析报告- 背景与目的
目的:
时间节点为天猫商城在正式上线6个月后,本报告通过分析婴幼儿商品购买信息,分析用户行为、时间段对于销量的变化
背景:
“天猫”原名淘宝商城,是一个综合性购物网站。2012年1月11日上午,淘宝商城正式宣布更名为“天猫”。 2012年11月11日,天猫借光棍节创下商业零售世界纪录。
数据来源
数据来自淘宝和天猫上购买婴儿用品的数据集,本数据集包括2个excel文件
表1购买商品
字段含义(理解):
用户ID:对应用户唯一ID,如果重复,则认为是同一用户再次购买;
商品编号:是商品的唯一编号,如果重复,则认为是买的同一款商品;
商品一级分类:淘宝首页商品分类,例如:母婴玩家、医疗保健等
二级分类:应该是孕妇装/孕妈用品专区、宝宝用品等;
商品属性:属性一般会展示产品的优势、特征以及作用;
购买数量:商品1次购买件数;
购买日期:成交购买日期,从格式上看是yyyymmdd时间戳的格式。
表2婴儿信息
字段含义(理解):
用户ID:对应用户唯一ID,此处不应该重复,确保账户唯一性;
出生日期:婴幼儿出生日期
性别:性别以0、1表示,此处定为(0是女,1是男),别问为什么,问就是你懂得。
二、本报告能解答这些问题:
- 在数据时间段内共有多少商品卖出;
- 婴幼儿商品在月、季、年中,各个时间段的销售变化;
- 在每年以季度划分各级产品销量变化;
- 婴幼儿年龄段和销量之间的关系;
- 男女性别的销量、时间段、商品变化;
- 不同类别商品对于销量的影响;
- 数据清洗
根据需要分析的问题,将数据清洗为符合需求的样子,分为以下步骤:
- 备份原始数据创建清洗副本:保留原始数据,创建副本,修改表名 XXX – 数据清洗;
- 选择子集:根据观察,数据表中未发现无用字段,不用处理;
- 列名重命名:根据观察,数据表中列名已很好表达含义,不用处理;
- 购买日期:29971条记录,以数据分列处理日期格式,排序后2012年07月02日(周一)至2015年02月05日(星期四)共计949天(=DATEDIF(G2,G29972,"D")+1&"天");
- 删除重复值:
用户ID:29971条记录,通过高级筛选查出用户近3年购买商品人次是29944。
商品编号: 29971条记录,通过高级筛选查出近3年被购买商品28422种。
商品一级分类: 29971条记录,通过高级筛选查出近3年购买商品基本集中在6大类
二级分类: 29971条记录,通过高级筛选查出近3年在662类专区中选择购买商品。
商品属性:29828条记录,缺失了143条记录,留带处理缺失值时再处理。
购买数量: 29971条记录
购买日期:29971条记录,通过高级筛选查出近3年在2012年成交183天,2013年成交365天,2014年成交365天,2015年成交36天,合计949天。
用户ID:953条记录,真实有效
出生日期:953条记录
性别:953条记录,3种性别,颠覆认知
- 缺失数据处理
通过刚才数据发现在商品属性:29828条记录,缺失了143条记录,考虑到实际情况商品属性是产品的优势、特征以及作用在此次分析中属无效字段,按处理子集处理,给予隐藏。
其他数据字段均未发现有缺失记录,真实有效。
- 一致化处理
购买日期: 分成年、月字段
- 数据排序
以购买时间,出生日期排序
七、异常值处理
在以婴幼儿出生日期排序时发现,出生日期中有多条非婴幼儿年纪的记录,考虑到购买婴幼儿用品的人群文化、地区、年龄不同,很多可能填写婴幼儿信息时误认为填写自己的出生日期,所以在分析婴幼儿年龄占比时,可以考虑以数据分组模式将大龄冒充婴幼儿的人群划分。
婴儿性别看看未知性别的个数:
虽然2性别只占总性别的2.73%,未到影响数据10%的阈值,但是考虑到会影响数据的严谨性,因此,将26条2性别的婴儿,平分给0、1性别婴儿。各占13条。
手动选出13条,再以定位空值选出,一次ok(有没有先定位13条的手法?求解)
- 数据分析
1.在数据时间段内共有多少商品卖出;
在数据时间段内共有76250件商品卖出,其中商品一级分类中占比28最高达到37.44%,50014815以25.92%次之,50008168以24.65%名列第三。
我们再以这三个销售最高的分类中看下哪个商品二级分类中销售最高的类别
从上面可以看出一级分类中占比28中排名前5的分别是:50011993的3609购买量、50012788的2969购买量、50003700的2145购买量、50002524的1843购买量和250822的1290购买量,50014815中排名前5的分别是:50018831的12657购买量、50006520的610购买量、50012564的469购买量、50017100的268购买量、50009540的253购买量,50008168中排名前5的分别是:50007016的2759购买量、50013636的2279购买量、50006602的1868购买量、50010558的1718购买量、50013207的1284购买量。
2.婴幼儿商品在月、季、年中,各个时间段的销售变化;
还是以这三个销售最高的分类中看下年、月的销售变化
上面是2012-2015分别一级分类28和二级分类top5的销售数量
上面是2012-2015分别一级分类50014815和二级分类top5的销售数量
上面是2012-2015分别一级分类50008168和二级分类top5的销售数量
通过上面的数据可以看出基本2012销量比2013年差一截,2014年达到最高销量,这应该和国内整体大环境有关,2012年底中国手机网民1800万人,2014年6月达到5.27亿。
3. 在每年以季度划分各级产品销量变化;
从以上3个代表性的分级来看,每年的第三季度、第四季度销售量占全年的50%以上
通过以上观察,直接到3、4季度内部查看
考虑到天猫促销有双节,11.11和12.12,下面单独看下这两个月的销售量
4.婴幼儿年龄段和销量之间的关系;
这里使用阈值将婴幼儿划分开,分析
从上表可以看出主要的购买生力军还是0-3岁的婴幼儿,虽然有一部分人群是在出生前就在购买但是占比还是较少。其他冒充婴幼儿的人群虽然也有一些,但总体占比较小。
5.男女性别的销量、时间段、商品变化;
经过上表看出,女性婴幼儿的购买量明显大于男性婴幼儿,这也可能就是女性天性喜欢在网上购物吧。
通过观察,在女性婴幼儿于2012年第四季度有一笔超级大单,看看是什么
在同期2012年11月的女婴购物373件中,占比29.68%,也算当时的大单了
这是近3年女婴整体购买数量合计964件,购买商品503种。
这是近3年男婴整体购买数量合计574件,购买商品451种。
6.不同类别商品对于销量的影响;
这是近3年整体29827种商品,共计卖出76250件。
分别观察一级分类下各商品top5
从上面观察出122650008类、50022520类、38类产品基本处于滞销状态。好卖的数28类(第一)、50014815(第二)、50008168(第三)。其中以2014年双11期间5014815类卖出整3年天价1单,销量10000件。
总结:天猫商城自2012年第三季度开始发力,到2014年第四季度搭上中国手机上网的便捷购物快车,一次次冲击网购高峰。总体热销的三类一级分类外,其他三类产品基本在现今的大环境下处于严重不良状态,需改变经营策略让滞销产品跟上步伐。