18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 电商数据探索分析

电商数据探索分析

时间:2023-03-15 20:54:01 | 来源:电子商务

时间:2023-03-15 20:54:01 来源:电子商务

电商数据探索分析

现在根据数据集母婴产品的表一和表二进行探索性分析,主要分析目的是产品的销量与哪些因素有关,哪些因素影响较大,哪些因素影响较少,以及根据这些因素制定可能提高销量的办法!分析的步骤主要有明确分析问题、理解数据、数据清洗和数据分析等过程,下面就将对各个步骤进行具体阐述!

一、明确分析问题

数据分析的第一步就是要明确分析问题,知道我们要分析什么,才好做后面的工作!明确分析问题可以从两个方面着手,第一可以从我们实际工作中遇到的问题下手,以问题为导向来进行分析,解决实际工作困难,提高工作效率为方向!第二个可以从数据集方面着手,数据集里面有哪些数据,各个数据里面相互有什么关系,从这些关系中可以分析哪些问题!我们这次拿到的数据是电商平台母婴产品客户下单的相关数据,做电商最重要的目的就是提高产品的销量,而且数据表里面也有销量的相关数据。因此我们可以分析产品的销量与哪些因素有关,哪些因素影响较大,哪些因素影响较少等问题,以销量问题作为主要方向来进行分析!

二、理解数据

理解数据是做好数据分析的基础工作,就像读书时看一篇文章一样,只有先理解这篇文章的关键字和词的意思,才能够把握文章的中心思想和作者观点!那么我们进行数据分析,前提就是要理解好数据表格里面各个列名的含义,知道它们在数据集的意义和作用!先把数据集里面的各个列名截取出来,再各个分析!

数据表格里面红色圈住的就是各个数据的列名,想要更好的理解首先最好是把它翻译成中文。

user_id:用户id

auction_id:物品编号(item_id)

cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)

cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)

buy_mount:购买数量

day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)

user_id:用户id

birthday:出生日期

gender:性别(0女性;1男性;2未知的性别)

当我们把各个数据的英文列名翻译成中文之后,也就非常清楚各个列的数据含义,没有什么难懂深奥的词语,现在就可以进行下面一步!

三、数据清洗

数据清洗环节,是我们从获得杂乱无章的原始数据时,按照一定的规则和方法对数据进行一系列整理工作,以方便我们后面对它进行正确的分析!数据清洗是数据分析的重要工作,也是分析过程中消耗时间最长的环节!它有很多的具体操作步骤,下面就对数据清洗的各个步骤进行详细讲解!

1.选择子集

选择子集主要是因为数据过于多且,为了不影响我们对数据正常的观看,把不要的数据暂时隐藏起来,等需要的时候再把它展现出来!在数据集里面有两个列名都是商品种类,可以现在隐藏其中一个!我选择将D列进行隐藏,隐藏后如下图所示。

2.列名重命名

由于现在数据表里面的列名都是英文名称,不习惯用英文来进行数据的各项操作,现在把各个列名换成中文名,如下图所示!

3.删除重复值

在现有的数据集里面,有很多的数据可能是已经重复出现。对于这些重复出现的数据对我们数据分析没有什么价值,只会干扰我们做出任何判断,于是我们要把它找出来并删除掉。在这些字段中物品编号是每个产品唯一标识,也就是说每个产品都只有唯一的物品编号。我们可以以物品编号作为重复的标准,删除物品编号相同的数据,如下图所示!

4.缺失值处理

这一步就是要统计一下数据表里面有没有缺失值的情况,并对缺失值进行处理。查看有没有缺失值方法也很简单,就是分别单击各个数据字段,选中整列数据,在数据表的最下面有一个计数,如果没有缺失值的话,各个列的计数是相同的,如果有缺失值,那么就有个边列的计数会少于其他列,说明有缺失值。通过具体操作发现商品属性这一列的计数是28279,而其他列的计数是28423,也就是少了144个数据。然后通过对整列进行空值定位,找到缺失值后再进行删除!现在所有的列计数都是28279,就没有出现缺失值了!

5.一致化处理

根据数据表的现有的数据,发现购买时间这一列还是数字格式,没有换成时间格式,还有性别这一项是用0和1表示,没有换成我们熟悉的男女文字。现在通过对数据的分列和单元格格式设置以及函数来操作调整,效果如下图所示!

6.数据排序

下面这一步,就是针对已经整理的数据,对数据集按一定的规则进行排序规则。一般情况下,大家最关心哪个数据就对哪个数据排序,在这个数据集里面,大家一般都对产品的销量比较关心,就以销量作为标准从大到小进行排序,排序后效果如图所示:

7.异常值处理

数据清洗的最后一步就是对原始数据进行异常值的处理,要想处理异常时,首先要发现异常在哪里,我们才好对它进行处理。发现异常值最好的办法就是建立数据透视表进行观察,原始数据太过庞大,一时很难发现异常。而在数据透视表里面可以对数据进行不同维度的观察和了解,达到总揽全局的效果!下面就是针对表二建立数据透视表如图所示:

从上面的数据透视表里面可以看出,第一个异常的地方就是时间问题,1984年估计互联网还没有出来吧,阿里巴巴也才1999年才成立,怎么可能有人在1984年通过电商平台购物呢,所以这个肯定是异常值。第二个问题就是有一部分数据是未知性别,这一点不符合常理,也属于异常值!根据生活常识70年代的人,医学就能够在母亲胎中鉴别男女了,这也是为什么导致现在男多女少比例失衡的原因。而数据中13-15年出生的婴儿竟然不知道性别,除了数据异常我实在想不出其他的原因!既然是异常值,找到之后就把它做删除处理,删除后效图所示:

四、数据分析

通过上面对数据集的明确分析问题、理解数据意义和数据进行一系列的清洗等步骤,现在终于到了最关键最重要的一步,数据分析工作!

1.婴儿年龄与销量有什么关系

根据上图年龄与销量的透视表可以看出,随着年龄越大,产品销量就会越低,产品的销量主要集中在0-3岁之间婴幼儿之间,这段时间的婴幼儿身体变化最快,产品需要量巨大!

2.性别与销量的关系

根据上图性别与销量的透视表中可以看出,整体趋势是女性产品销量要远大于男性销量,虽然还有少部分性别是未知的销量,但是不影响整体的判断,还且在电商平台购买女性产品的时间也要比男性要早两年!

3.时间与销量的关系

根据上图时间与销量的透视表中可以看出,整体趋势是从02年到15年这段时间里面,产品的销量随着时间逐年提升,除了15年的数据记录的不是很完整,可以暂时不计!从11年到14年这段时间,产品销量逐步稳定在300多左右。从季节角度分析,第四季度销量最好,这段时间大部分处于冬季,而第二季销量比较平淡,这段时间大部分处于夏季,第一、三季度产品销量比较平稳,大部分处于春秋季节!

关键词:分析,数据

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭