18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 电商母婴类描述统计分析

电商母婴类描述统计分析

时间:2023-03-26 02:26:02 | 来源:电子商务

时间:2023-03-26 02:26:02 来源:电子商务

首先,我对描述统计分析的理解是
描述统计分析:对大量数据进行归纳,将一系列复杂的数字,简化为几个关键的具有描述性的数字,用这些代表性的数字来代表整个数据集并通过各种数学手段,使人们在不清楚具体数据的情况下能够了解数据集的整体情况。
而我们今天首要目标是对电商母婴类数据进行分析

明确问题

1.各类产品销售量随时间的变化趋势。

2.同一大类下,那种产品更畅销。

3.同一大类下,那种产品更大众化

4.不同性别对同种产品销量的影响

5.婴儿年龄对同种产品销量的影响

理解数据

第一个购买商品表中,有用户id、商品编号、商品二级分类、商品一级分类、商品属性、购买数量,购买时间。

用户id:购买对应商品用户的独有标识,不可为空。但同一用户可以重复且多次购买,故可以重复。

商品编号:商品的编号,不知其是否具有唯一性,不可为空。

商品二级分类:描述商品属于哪个类别。商品一级分类的子分类,同一商品二级分类不应对应多个商品一级分类。

商品一级分类:描述商品属于哪个类别。

商品属性:多个维度描述一件商品的各项特征。例如:大小,品牌等。

购买数量:同一时间购买对应商品的数量。应为大于0的整数。

购买时间:购买对应商品的时间。

第二个表中,有用户id、出生日期、性别。

用户id:用户的独有标识,不可为空。

出生日期:对应用户子女的出生日期。

性别:对应用户子女的性别,0位女性,1为男性,2为未知性别。

数据清洗

数据清洗的步骤:1.选择子集。2.列名重命名3.删除重复值4.缺失值处理5.一致化处理6.数据排序7.异常值处理

使用的数据集为:商品的一级分类,购买数量,购买时间

对相应数据集进行数据清理:并无缺失值。

对购买时间进行一致化处理,通过excel的数据分列功能对购买时间进行处理。得到以下格式

对购买时间进行一致化处理的部分结果
对商品一级分类下的购买数量做异常值分析:

首先,求出购买数量的几个常见统计学指标,得到结果如下

我们可以得知,无论那种产品的购买数量大多都集聚在1件上,这时我们使用四分位数对异常值进行判断可能会对一些高价值用户“误判”。而我们看到商品一级分类中的50014815的标准差为143.95,表名这一分类有远超其它分类的波动性。我们对该分类细致分析,得到下表

我们对该分类下购买数量最大值做标准分计算得出Z=69.4。个人认定其为异常值,会对整体分析产生影响,用平均值代替。

数据分析:各类产品销售量随时间的变化趋势

使用excel的数据透视表来对所得数据进行分析,根据问题需求对数据进行处理,得到下表

各类商品随时间(日)变化的部分结果
为了让整体更利于观察,我们对购买时间以年、季度为单位进行分组,得到下表。

抛去2012年第三季度和2015年第一季度,各类产品的销售量随时间变化而逐步增长,人们对网购这类消费模式越来越接受。从产品大类来看,28类产品的销量最好,占整体的43%。从季度上来看,第一季度的销售量最低,第四季度的销售量最高。

为了探究28类产品的销量为什么最好,我对手中仅有的数据进行了进一步处理,得到如下结果

28类产品的产品数量是最多的,而用户在电商平台搜索母婴类产品时,平台会推送母婴类相关产品,而28类产品的产品数量是最多的,相应的会占用平台更多的推送资源(这里把二级分类商品种数一定程度的比作占用资源多少)。另一方面,50008168类产品有74种二级分类,但是却占据整体销售量的28.4%,说明用户对50008168类产品也有很强的需求度。所以我拟定(销售量/二级产品种数)这一指标来间接表示用户对该类产品的必须程度,50008168类产品的必须程度很高。

数据分析:同一大类下,那种产品更畅销

那种产品更畅销,意味着在同一商品大类下,相同的时间段内销量最高的产品。

由此我们用数据透视表对商品一级分类、商品二级分类、购买时间、购买数量进行分析,得到下表。

在2012/7/2-2015/2/6这段时间内,以上几种产品,在各自大类中属于最为畅销的产品。我又对最畅销产品对整个大类的支柱程度做个表,如下

可见,38类产品中用户集中购买211122产品。

数据分析:同一大类下,那种产品更大众化

哪种产品更大众化,意味着同一大类下,在相同的时间段内,该产品被更多不同的用户所购买。

由此我们用数据透视表对商品一级分类,商品二级分类,购买时间,用户ID进行分析,得到下表

在2012/7/2-2015/2/6这段时间内,以上几种产品,在各自大类中属于最为大众的产品。

数据分析:不同性别对同种产品销量的影响

首先,我们使用Vlookup对婴儿信息进行引入,再对新的表格进行数据清洗,得到下表。

带有婴儿信息的购买信息(部分)
其中,我们发现一些用户购买时间与婴儿生日之间跨度较大,例如

但考虑到可能是多胎原因,故不作处理(包括我不知道是否可以提前知道宝宝性别?)

考虑到男女数量不平等对结果的影响,我们对婴儿整体做统计

可以看出女婴(0)的数量为492,男婴(1)的数量为438,两者相差54人。

不同性别对同种产品的销量影响应对不同性别对同一产品在同一时间段内的购买量做分析。

由此,我们用数据透视对商品一级分类,商品二级分类,婴儿性别,购买数量做分析,得到下表

由于数据基数不同,我们简单的用购买数量的平均值来代表其性别的购买力,得到以下两组数据

可以看到,男婴的平均购买数量是低于女婴的,用户更愿意对女婴投入更多。男婴标准差很低,个人理解为用户对男婴的态度很统一。

之后对各类商品进行分析,得到下表

我们可以看到,5008168类产品与50022520类产品,男婴的需求量高于女婴。而38类产品与50014815类产品女婴的需求量远远高男婴。

数据分析:婴儿年龄对同种产品销量的影响

首先我们要对婴儿年龄所处在的不同阶段进行分组,在此我借鉴了网上的一些婴儿关键时期的文章,例如(节选)

得到以下分组规则

用VLOOKUP的模糊处理得到以下数据

婴儿年龄对同种产品的销量影响应对处在不同时期的婴儿对同一产品在同一时间段内的购买量做分析。

因为用户是因为婴儿到目标年龄段才会去买,而不是每个年龄段都会去买每一样东西,所以我们这里不对各年龄段婴儿数量做对比分析处理。

我们年龄分组、商品一级分类、购买数量做数据透视表,得到以下结果

我们可以看出,38类产品和122650008类产品在婴儿前3个关键期的购买数量及其的少,可以理解为这两类产品对5个月一下的婴儿作用不大,用户购买需求低。而50008168类产品、28类产品、50014815类产品的购买量在各个阶段都较高,通用性较强。而50022520类产品在婴儿出生前销量不低。总体来看,婴儿在8个月到5岁之间与未出生时,总体产品销量较高。而在婴儿年龄过大或过小的时期,母婴类产品的销量不佳。

关键词:统计,分析

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭