电商母婴产品分析
时间:2023-03-26 00:46:01 | 来源:电子商务
时间:2023-03-26 00:46:01 来源:电子商务
一、数据来源此次分析的数据来源于天池大数据平台,主要采集了电商平台母婴产品的相关销售数据以及购买者的婴儿简要信息。数据下载地址:Tianchi:Data set
二、提出问题经过对采集到的数据进行整理,我们能够得到以下信息内容(为方便进行分析,已将英文列名替换为中文列名):
根据获得的信息,提出此次所要分析的问题:
- 男婴儿与女婴儿中销量前三的商品分别是什么?
- 销量最高的商品种类中婴儿出生年份的占比各为多少?
- 各季度销量占总销量占比?
三、理解数据针对所提出的问题,在分析过程中需要使用到的信息分别为:
表1:用户身份信息、购买行为编号、商品种类序列号、商品序列号、购买数量、购买时间;
表2:用户身份信息、出生日期、性别。
首先对此次分析中使用不到的数据进行清理,此次分析中无需使用到表1中的“商品属性”字段,在数据清洗时需选中其整列后进行删除:
四、数据清洗- 删除重复值:
在分析过程中,应以每一次购买行为及其对应的相关信息为基础展开分析,故我们需针对购买行为编号的重复项进行删除。
2.缺失值处理:
对缺失值处理选择使用查找中的定位功能,选中空值后定位查找,得出结果为“未找到单元格”,说明该表格不存在缺失值。
3.一致化处理
此次分析中问题2与问题3将对各季度的销售数据与婴儿的出生年份进行分析,需对表1中的购买时间与表2中的出生日期进行分列与分组,从而在表格中展现出季度、出生年份信息。
在分列提取出月份及日期后,对其完善季度信息
完成表1分组后,对表2的出生日期进行分列,从而处理为分析所需的出生年份。
然后需要将表2的信息通过vlookup功能链接到对应的行中。
将表2通过vlookup功能链接入表1后,我们对参照数据集中的0:male,1:female对婴儿性别中的信息进行替换。
对婴儿性别与出生日期中的异常值进行处理,因无法确定2与#N/A的婴儿性别,该条数据无法进行相应的分析,我们将这些数据进行整行删除,最后得到868行数据。
最后对购买行为编号进行升序排序,完成了我们对该表的数据清理。
五、构建模型针对“问题1:男婴儿与女婴儿中销量前三的商品分别是什么?”,构建如下透视表:
根据分析问题所需,在行选取婴儿性别及商品序列号,值选取求和项:购买数量。
对所生成的数据透视表进行购买数量的降序排列。
从而得出分析结果:对该数据透视表进行降序排列后可知,男婴儿中销量前三的商品序列号分别为50014815、50008168、28;
女婴儿中销量前三的商品序列号分别为50008168、28、50014815。
针对“问题2:销量最高的商品种类中婴儿出生年份的占比各为多少?”,构建如下透视表:
根据分析问题放入所需用到的字段,在行选取商品种类序列号,在列选取出生年份,在值选取“求和项:购买数量”。
对该数据表的购买数量进行排序,从而得到销量最高的商品种类序列号为50018831。
对值显示方式选择“行汇总的百分比”,从而得到各出生年份的占比。
再对行进行筛选,只选取销量最高的商品种类。
分析:经过排序与筛选,并对行汇总数据进行百分比显示,可以看出销量最高的商品种类为50018831,其婴儿出生年份占比如表所示。
针对“问题3:各个季度销量占全年销量占比?”,构建如下透视表:
根据分析问题所需的数据,在行中选取季度,在值中选取“求和项:购买数量”。
对生成的数据透视表的值显示方式选择“总计的百分比”,从而得到各季度的销量占比。
分析:根据在数据清洗时对购买时间的分组梳理出的季度信息,各季度的销售占比如表。
六、总结根据此次对电商母婴商品的数据分析,我们可以得到以下几点结论:
- 不论男女婴儿,销量前三商品均为相同的三款商品,但在不同性别中的排名有所不同;
- 在销量最高的商品种类50018831中,2011年出生的婴儿占了该商品种类购买数量的74.65%,远高于其他年份出生的婴儿购买数量;
- 在全年销售中,各季度的销量占比从高到低分别为冬季(37.56%)、春季(21.83%)、夏季(21.33%)、秋季(19.28%)。