用excel对电商数据进行数据分析
时间:2023-03-15 22:10:01 | 来源:电子商务
时间:2023-03-15 22:10:01 来源:电子商务
我们使用excel进行数据分析时,通常会经历五个步骤。
数据分析步骤1.提出问题:正所谓有了问题才需要去针对性地分析数据,从数据中得到问题的答案,脱离问题对数据分析得再透彻也是无用之功。
2.理解数据:第二步理解数据中包含两个小的方面,首先是针对要解决的问题采集相应的数据集,其次是查看数据集中的信息,了解每个字段的意义和数据集的描述性统计信息。
3.数据清洗:也就是数据的预处理,这占据了数据分析的大部分时间。只有清洗完成的数据才能用于之后的分析。数据清洗大致可分为七个步骤(选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理),每一步都需要针对具体情况具体分析。
4.构建模型:也就是对清洗完成后的数据进行数据分析,通常是对业务问题进行具体分析,得出问题的答案。简单的构建模型是进行一些描述性统计分析,得出一些业务指标,而复杂的就需要用到机器学习方面的知识。
5.数据可视化:也就是将分析问题得出的结果用图形展示出来。
接上一节,我们可以用这五步对婴儿用品的电商数据进行分析
一、提出问题上一节中提出了三个问题:
①哪些类别的产品销量很好,细分到类别下的二级分类,又是哪些种类非常畅销?
②男婴儿购买信息中哪几类最为畅销,女婴儿哪几类更为热卖?
③在畅销的产品中按类别分类,分析出时间对产品销量的影响。
二、理解数据为了解决相应的问题,采集到与问题相关的数据集,接下来要理解数据集中的信息。
表1中的数据集:
用户ID:是用户在网站或APP上使用的购买账号,也是用户唯一标识
购买行为编号:记录用户在购买某件商品时的购买行为,是购买的唯一标识,
商品种类ID(一级):反映用户购买的某件商品属于哪一大类
商品类别ID(二级):反映用户购买的商品属于哪一类别,是上一字段大类中的分类
商品属性:类似长度,厚度,商品品牌等一系列属性值
购买数量:用户对某件商品的下单量
购买时间:用户购买商品的时间
表2中的数据集:
用户ID:用户购买商品时所用的账号ID,是唯一标识
出生日期:婴儿的出生日期
性别:婴儿的性别,0为男性;1为女性
三、数据清洗1.选择子集 :由于购买行为编号和商品属性对我们分析的问题没有意义,故将其隐藏,以便于我们的分析。(但是购买行为编号是唯一标识,在用户编号这一唯一标识缺失值时,可以拿出来判别其他数据是否缺失)。
表1 隐藏后的数据集截图表2 数据集截图2.列名重命名:由于两张表的字段已经非常便于理解,所以无需重命名。
3.删除重复值:对两张表分别在数据选项之下按照用户编号这一唯一标识删除重复值,发现没有重复的数值。
4.缺失值处理:表1中每列数据计数都为29972(除了商品属性值,但是对分析问题没有影响,所以不必处理),表2中每列数据计数都为954,没有缺失值。
5.一致化处理:观察数据集中的数据,发现表1中的购买时间和表2中的出生日期没有按照相应的日期格式显示,会影响到后面的分析。故对其进行分列+设置单元格格式的方法设置成标准日期格式。
表1 一致化处理后的数据截图表1 一致化处理后的数据截图6.数据排序:将表1中的数据按照购买数量进行降序排序
表1 降序后的截图可以发现单个用户一次购买数量最多的是10000,可以得到相应的商品种类等其他相关信息。
7.异常值处理:结合业务问题实际判定是否为异常值。
四、构建模型以上就是清洗完成后的数据,之后需要对数据进行分析。首先可以通过excel自带的分析工具库得到购买数量的一些描述性统计分析。
购买数量描述性统计分析截图接下来对于业务问题进行针对性分析
①哪些类别的产品销量很好,细分到类别下的二级分类,又是哪些种类非常畅销?插入数据透视表,把商品类别ID(一级)拖入行中,求和项购买数量拖入值中,获得商品类别和购买数量之间的关系,并按照购买数量降序排序。
商品类别(一级) 购买数量数据透视图我们取购买数量最多的前三类定义为畅销,可以发现商品类别ID(一级)中最为畅销的是28,50014815,50008168。
由于商品类别(一级)下的商品种类繁多,放在一起分析数据过长不太好查找,需要对每个畅销商品单独进行分析。这里需要用到筛选这一功能把大类相同的数据筛选出来,并且复制到另外一张表中进行分析。(因为数据透视表只会对所有数据进行分析)
28大类下各种类购买数量截图可以发现28这一一级分类下最为畅销的三种商品种类是50011993,50012788,50003700。
可以同样的方法对另外两个大类的畅销产品进行分析。分别得到数据透视图:
50014815大类下各种类购买数量截图5008168大类下各种类购买数量截图可以发现50014815这一大类下最为畅销的三种商品是50018831,50006520,50012564;50008168大类下最为畅销的是50007016,50013636,50006602。
②男婴儿购买信息中哪几类最为畅销,女婴儿哪几类更为热卖?由于要从婴儿的性别入手进行分析,需要通过vlookup功能借助两张表的共同字段用户ID将表1中的商品类别,商品种类,购买数量这三个信息对应地查询到表2中。
使用vlookup之后的表2中数据集由于要对不同性别的婴儿进行分析,需要将不同性别对应的购买信息筛选出来,复制到新的表中进行分析,其中0为男性,1为女性(发现还有性别为2的存在,通过筛选剔除掉这些数据进行分析)。这里先对男婴儿进行分析,获得行为购买种类(二级),列为购买类别(一级),值为购买数量求和的数据分析表:
男婴儿各种类商品购买数量截图发现男婴儿中卖的最好的三种商品是50014815大类下的50018831(简记为50014815-50018831),50008168-50013636,50014815-50012456。
同样地,对女婴儿进行分析,获得数据透视表:
女婴儿各种类商品购买数量截图发现女婴儿中卖的最好的三种商品是50008168-50013636,50008168-50010558,50008168-50006602。
③在畅销的产品中按类别分类,分析出时间对产品销量的影响。通过问题1已经获得畅销的商品类别以及这一类下的畅销商品种类,这里只针对28这一商品大类进行分析讨论。首先对问题①中获得的畅销商品28-50011993进行分析,将商品信息筛选出来绘制数据分析表,
28-50011993商品购买数量跟时间关系由于数据中信息年份跨度很小,按年份分析没有什么意义,这里只将季度和月份组合进行分析。发现28-50011993这类商品在第一季度和第四季度比较好卖,特别是1月,11月,12月卖的特别好,可以推测出这种商品在天气冷的时候需求量比较大。
接着对28-50012788这类商品进行分析,得出数据透视表:
28-50012788商品购买数量跟时间关系可以发现,这类商品主要在12月需求量特别高,其他月份需求量很低,可以把主要重心放到12月,其余月份保证一定的数量即可。
最后,对28-50003700商品进行分析,获得数据透视表:
28-50003700商品购买数量跟时间关系这类商品购买数量跟时间之间没有明显的变化关系,全年都有一定的需求量,其中1月3月5月卖的特别好,可以在前两个季度稍微增加商品数量。