深入分析电商母婴产品
时间:2023-03-26 02:28:01 | 来源:电子商务
时间:2023-03-26 02:28:01 来源:电子商务
Excel有强大的处理数据功能,每一位数据分析师都离不开Excel,今天我们就来学习一下怎么使用Excel来分析数据吧。
上一篇文章交代了我选取的数据是来自于阿里巴巴天池的电商零售数据母婴产品,下载地址:Tianchi:Data sets:
数据分析的步骤如下图:
数据分析的步骤一、提出问题
1、销量最好和最差的产品是?他们的月销量和年销量分别是?
2、 用户的年龄主要分布在哪个阶段?男用户多还是女用户多?
3、哪个月份的婴儿出生人数最多?
脑图二、理解数据
三、数据清洗
数据清洗是数据分析里面较为重要的一步,主要是对选取的数据进行补齐、重复值、异常值等相关处理,让数据看起来规范化一些,这对于下一步的构建模型起到至关重要的作用。
数据清洗步骤1、选择子集
原始数据本来是csv格式,我们另存为成xlsx格式或者xls格式。
2、列名重命名
原本的字段名为英文,我们可以将其修改成中文,更加方便理解
3、删除重复值
数据较为规范,暂无发现重复值
4、缺失值处理
以上是空值定位的方法,存在空值的都是商品属性的字段,目前没有太多资料可以补齐,所以暂时不作处理,而且分析时基本用不到这一栏。
5、一致化处理
对于购买日期和出生日期改成常见的日期格式。
6、数据排序
此处进行数据排序无太大意义,所以暂不处理。
7、异常值处理
婴儿信息表中存在2的性别,这是不正确的数据,需要进行更正。
四、构建模型
1、销量最好和最差的产品,他们的月销量和年销量分别是
产品销量从上图可以看出编号为28的产品销量是最好的,编号为122650008的产品销量是最差的。
年销量因为2012年只有半年的销售数据,2015年只有2个月的销售数据。所以我们可以对比的只有2013和2014年。从上图可以看到销量最好的产品和销量最差的产品从2013-2014年期间,销量都是呈上升趋势。
从上图可以看出11月和12月的销量都是较之前的月份要高,这个应该是和双十一促销有关。
2、用户年龄和性别分析
从上图可以看出男用户比女用户多,但是比例较为接近。可看出较多母婴产品都是男女适用的。
婴儿年龄统计从上图可以看出使用该产品最多的年龄段是5-8岁,存在一个35岁的,这个信息应该是错误的,此处更正。
3、出生人数较多的月份
从上图可以看出8月出生的人数是最多的,这个可能与我国读书政策有关,因为9月前出生的孩子可以读书,不需要读多一年学前班,因此很多孕妇会在8月份提前进行剖腹产。
建议:
1、编号为28的产品销售量最好,公司应该多多进货
2、11月和12月的销量较高,公司应该做好双十一促销活动。