电商母婴产品数据分析
时间:2023-03-26 04:58:01 | 来源:电子商务
时间:2023-03-26 04:58:01 来源:电子商务
一、分析背景及目的
时代变迁,中国父母,从过去生5-6个,到后来的计划生育,再到现在的二胎。孩子生得少了,但是育儿的成本却越来越高。尤其是近几年来,移动时代的到来,新生代父母们对于科学育儿越来越重视。16年,二孩政策的到来,母婴市场在未来,必将会发生天翻地覆的变化。
本文选取的是,淘宝天猫的母婴产品在2012年到2015年的部分数据集,以及部分用户信息的数据集,来源于阿里云天池。
通过对这2组数据集的分析,充分了解当时母婴产品的销售情况,找出销售规律,帮助公司提高收益。
二、分析思路
三、数据预处理
(1)选择子集
删除auction_id字段,新增
属性复杂度、
属性复杂度级别、
数量级别,年龄区间4个字段
(2)列名重命名
表1,user_id(用户ID)、cat_id(商品ID)、cat1(商品类型)、proprety(商品属性)、buy_mount(购买数量)、day(购买日期)
表2,user_id(用户ID)、birthday(出生日期)、gender(性别)
(3)删除重复值
无重复值
(4)缺失值处理
只有商品属性有144个缺失值,商品属性的值,有点像字典,冒号前的是key,冒号后是value,每个元素用分号隔开。
思考:假设字典中数据越多,是不是这个商品就越复杂,也就跟价值会有点关系呢,所以我们新增一个字段,叫
属性复杂度,通过函数
LEN($E2)-LEN(SUBSTITUTE($E2,IF(ISBLANK(E2),0,":"),""))处理成属性复杂度。
商品属性应该跟
商品ID和
商品类型,有着比较强的相关性,新增
商品字段,把
商品ID和
商品类别组合起来。随后把
属性复杂度非0的进行透视,计算每种商品的
属性复杂度平均值,再用vlookup函数替换缺失值。
商品与属性复杂度透视表 商品类型与属性复杂度透视表剩余一部分缺失值,我们把
商品类别跟
属性复杂度进行透视,得到各个类别的均值,再进行替换,到此我们用
属性复杂度替代
商品属性字段,我们删除
购买行为编号 ,商品属性,商品三个字段。至此,我们把属性进行了缺失值处理
(5)异常值处理
删除表2的1984年出生的用户。购买数量1000以上的不能判定是否异常。
(6)一致化处理
把日期通过分列的方法进行统一成标准的日期格式,。
表1中,购买数量进行统计描述
方差极大,样本值很分散,均值跟第十最大值,相差较大。通过透视图观察,其占比主要集中在数量1跟2上。我们可以把购买数量进行按区段划分,1为1区间,2为2区间,3-10为3区间,11-20为4区间,21-100为5区间,101到10000为6区间,通过vlookup实现,新增字段
数量级别。属性复杂度,做柱状图可得分布较为均匀,可以求四分位数,Q1=8,Q2=16,Q3=23,创建
属性复杂度级别1-8为1级,9-16为2级,17-23为3级,24以上为4级,通过vlookup实现,每级样本数基本相同。
表2数据导入表1,用函数round((购买日期-出生日期)/365,1),得到年龄分布
年龄分布观察上述年龄分布,可以年龄划分几个区段,新增
年龄区间字段未出生,0-5个月,0.5-1.5岁,1.5-3岁,3岁-5岁,5岁-7岁,7岁-12岁,通过vlookup来实现。
(7)数据排序
按照购买日期排序
四、分析内容
(1)商品销量在各时间维度上有怎样的规律?
图1根据图1,商品的销量是逐年递增的,每年各个季度也是递增的,第四季度达到最大值,到了来年的一季度又会回落。从每个月份,按照数量级别,销量最好的是5月,11月跟12月。
图2图3根据图2,其中5月销量分布比较均匀,14年5月12日出现了大幅度的增加,11月跟12月主要是双十一跟双十二增长较大。
根据图3,除去双十一,双十二两天活动,5月是要比11、12月销量更高的,事实证明,举办大型促销活动是能够激发用户的消费能力,也能大幅提高销量。
(2)哪些类型的商品比较受欢迎?
图4根据图4从购买数量可知,28,50014815,大批量购买较多。
图5根据图5,可知50008168类型最热销,其次是28类型的商品。
图6根据图6,热销商品50008168,用户对于商品的复杂度要求比较高,选择较认真
(3)属性复杂度是否影响了商品的销量?
图7根据图7,从数量级别看,销量随着复杂度略微下降,从购买数量看,大批量购买主要集中在低复杂度的商品。
(4)不同性别与销量,类型,复杂度的关系
图8根据图8,性别0比1多6%左右,不同性别对销量级别影响较小,但是性别为0的用户,批量购买较多。不同性别对不同类型的需求量基本遵循(2)的分布。
图9根据图9,性别0对复杂度级别在2的商品选择较多。
(5)不同年龄段与销量,类型,复杂度的关系
图10根据图10,0.5-1.5岁用户购买最多,其次是1.5-3岁,且0.5-1.5岁用户批量购买也是最多的。类型50008168是所有年龄段必买类型,且在1.5-3岁需求量最大,其他类型在随着年龄增加,逐渐就不再购买。
图11根据图11,各年龄段对于复杂度的选择并没有特别的倾向,分布比较均匀。
五、结论
(1)每年按季度销量是逐渐递增,到来年又会回落,年初属于淡季。11月,12月受双十一,双十二影响,销量有很大增长。5月没有大型活动,但是销量也比较大。
(2)28,50014815类型商品,大批量购买较多。50008168类型最热销,且用户在选择是会仔细选择属性,属性复杂度较高。
(3)更多人会选择属性更少的商品,尤其是批量采购的用户,更喜欢属性少的商品。
(4)不同性别婴儿的用户,对于商品属性的选择遵循(3)结论。性别为0的用户存在更多批量购买型用户。
(5)婴儿未出生时,用户更多选择50022520类型的商品,出生后就没有太大需求了。其他类型商品在婴儿出生后,需求量立马提升,在1.5岁后需求量降低。热销商品50008168在1.5-3岁的用户,销量达到最高峰,之后需求量缓慢下降,但需求量依然很高。