天猫平台母婴类商品数据分析报告
时间:2023-03-26 07:12:01 | 来源:电子商务
时间:2023-03-26 07:12:01 来源:电子商务
1.分析背景
在众多行业当中,母婴类产品一直是商家们争相追逐的品类。随着互联网时代的到来,母婴产品已经从线下搬到了线上,母婴产品接轨电商产生了销量激涨的特殊反应。这几年来,母婴电商商家们的数量从不断生长到现在相对平缓,市场竞争的压力不断增加。当下商家们普遍发现产品的销量难以进一步提高,对提高销量方面感到迷茫和力不从心,也不知道该朝哪一个方向进一步发展。
在这种形势下,数据分析对于产品的设计,运营起到了不可忽视的作用。本项目的数据选自淘宝天猫的商品销售数据,从时间和用户两个维度分析了平台上母婴类产品销量的变化情况,一方面明确了平台的销售现状,另一方面分析的报告提出了几条可能提高产品销量的建议,为商家提供了发展思路。
2.数据理解
2.1数据描述Ali_Mum_Baby是一个包含超过900万儿童信息(生日和性别)的数据集,由消费者提供,他们共享这些信息是为了获得更好的推荐或搜索结果。该数据来源为阿里巴巴天池,该数据集中包含两个表:Tianchi_mum_baby和Tianchi_mum_baby_trade_history。这两个表格记录的具体数据如下表所示:
Tianchi_mum_baby_trade_historyTianchi_mum_baby2.2数据清洗本报告数据清包括7步,分别是选择子集,列名重命名,删除重复值,缺失值处理,一致化处理,数据排序,异常值处理。
(1)选择子集:在表格1中,auction_id和property是本次分析不需要的内容,故将这两列隐藏处理。
(2)列重命名:为了更好地理解数据,在表格首行将变量进行重命名处理。
(3)删除重复值:在表1中用户可以重复购买商品,因此不需要删除重复值。在表2中,用户id是检测用户的唯一凭证,因此可以利用用户id删除重复值。在表2中使用数据选项卡下的删除重复值,删除掉重复的用户id。
(4)缺失值处理:利用计数功能检测各个变量的有效记录数,没有发现缺失。
(5)数据一致化处理:利用VLOOKUP函数,将表2中的变量“出生日期”和“性别”绝对引用至表1,在表1中得到新增的两个变量。同时,我们计算得到两个新的变量,分别是用户年龄和购买类型,变量的解释如下:
a.用户年龄:用户购买的时间减去用户的生日,如未出生即购买则为负值。
b.购买类型:基于用户单次购买商品的数量对该行为进行划分;如果购买数量为1,则称为单次购买;如果购买数量为2-10,则将此行为定义为多数购买。如果一次购买数量超过10件,将之定义为“批量购买”,我们认为用户批量购买的目的并非自己使用,而是有其他原因(如幼儿园统一购买等)。
(6)排序处理:使用排序功能基于购买数对数据降序处理。
经过前六步骤得到的清洗数据如下表所示:
数据清洗后的变量和部分记录(7)异常值处理:通过数据筛选并没有发现异常值。但是,通过初步的描述统计我们发现,通过“批量购买”的销量占总销量的四分之一左右,这些销量的贡献不可忽视,但是通过筛选我们发现执行过此行为的用户仅有8人,这将会导致个别月份的销售额会因为这几个用户而出现反常对规律的探讨产生了极大的干扰(如仅因为用户359601689一人而导致11月出现销量高峰),如下图所示。
因此,我们将这8条记录删除,不列入常规的探讨。批量购买(黑色)占销售总额量的21%批量购买行为的8条记录2.3业务问题基于已有的数据,我们可以从时间,用户和产品类别三个角度对产品的销量进行探讨,进而我们得到如下的问题:
1.产品销量与时间,产品种类的关系,即
(1)各类商品在各季度/月的销量表现如何?
(2)各类商品在各年/的销量表现如何?
2.产品销量与用户,产品种类的关系,即
(1)不同性别的用户是否青睐的商品不同?
(2)不同年龄的用户是否青睐的商品不同?
3.业务问题分析
3.1基本描述在讨论上述两个问题之前,首先对商品类别,用户性别和年龄做基本的描述分析,初步了解这三个维度的信息
(1) 产品类别
各类产品的销量表现如下图所示。从图中可以看到,销量前三甲分别是尾号168,尾号815和28号类别的产品,这三类产品累计占据了80%的销售量。38,520和008销售数量较少,仅占据销售量的20%。
各品类商品的销售量及累计占比(2)用户性别
用户性别分布如下图所示。在所有的购买用户中,男性有437人,占比46%,女性有486人,占比51%,有3%的用户性别未知,整体上女性和男性用户数量基本相等,女性消费者数量略大于男性。
用户的年龄分布饼图(2) 用户年龄分布
用户的性别分布如下图所示。从统计结果来看,用户的年龄主要集中在0,1,2岁,其中0岁用户最多,有409人,此年龄过后用户的数量逐渐递减,这说明随着年龄的增大,用户对母婴类产品的需求不断减弱。
用户年龄分布条形图3.2产品销量与时间,产品种类的关系3.2.1各类商品在各季度/月的销量表现如何?此问题的目的在于探究母婴类产品的需求是否存在月份,季节的周期性变化,即淡季和旺季。取完整的13年和14年的数据,得到各月销售总量和销售前三甲的商品如下图所示。从这两张图中我们可以看到各个月份之间存在明显的销量差异,总量和前三甲商品都会在2月份会存在销售低谷期,而在3月份又会达到需求高峰,此后在11月份又存在一个需求高峰。
13-14年各月总销量变化曲线13-14年各月前三甲品类销量变化曲线基于此现象,我们提出如下两个假设:
a.月份之间销量的差异是由于存在季节性的需求差异引起的
b.月份之间销量的差异是13年和14年取平均值的偶然,其结果实际上不存在规律性。
为了验证这两个假说,我们得到13-14年独立的各月总销量及销量前三甲的变化图如下图所示。从图中看,产品销量呈缓慢上升趋势的同时,确实存在一些周期性的变化。在13,14年的2月基本都出现了需求低谷,而在3月和11月基本都出现了需求的急剧上升。因此假设a正确,即月份之间销量的差异是由于存在季节性,月份的需求差异引起的。
13-14年产品总销量及各类产品销量变化曲线基于2月需求下降,3月和11月需求上升,我们分别提出如下假说:
(1)2月需求下降是由于传统春节引起的,这个月份商家暂停营业,而家庭有一定量的“存货”过年,因此不太会在网络上购买母婴类产品。同时由于需求的抑制,在3月出现了需求的反弹现象。
(2)11月的需求上升是由于双十一促销引起的。
针对假设(1),我们查看2013年和2014年的春节,分别是2月10日和1月31日,基本符合我们的预期。同时抽取2013-2014年三月的详细销售数据如下图所示。我们可以发现,需求的高峰点分别是在3月3日及3月8日,一方面,这解释了年后的需求反弹,同时3月8日是妇女节进一步促进了需求量的增加。
因此对假设(1)我们认为基本正确,春节期间用户购买需求不高,而三月既是2月需求的反弹,同时拥有妇女节这种与母婴产品相关度很高的节日,相关营销又进一步增加了销量的增加。
13-14年3月产品总销量变化曲线3月份各品类产品的销量如下图所示。从图中我们可以看到,在3月这个需求旺季,需求量前三分别是168,815和28,且168品类的商品需求量远高于其他商品。
3月各类产品销量图根据假设(2),我们抽取了11月份销售量的全部数据如下图所示。图中显示在11月11日需求量有明显的上升,这说明假设(2)正确。
13-14年11月产品总销量变化曲线双十一这一天各品类产品的销量如下图所示。从图中我们可以看到,这一天需求量前三同样分别是168,815和28,且168品类的商品需求量依旧远高于其他商品。
双十一各类产品销量图3.2.2各类商品在各年的销量表现如何?由于12和15年提供的数据不完整,这里进一步将一年分为四个季度,产品总销量,前三甲销售量随着年份和季度的变化曲线如下图所示。
12-15年各季度总销量变化12-15年各季度前三甲商品销量变化曲线从这两张图我们可以看到,虽然存在一定的波动,但是从12年至14年销售量整体呈上升趋势,这说明企业的业绩逐年上升。但是,在2015年第一季度,销售量存在断崖式下跌。针对这一问题,我们继续提出假设结论:
a.15年第一季度的数据可能不完整
b.第一季存在2月这个销售淡月,这会拉低这一整季的销售额。
c.15年第一季度销售业绩确实很差,这值得我们警醒
针对假设a,我们调取15年的数据,发现第一季度并没有3月份的数据,因此假设a正确;
针对假设b,我们已经知道每年的2月是销售淡月,而3月是销售旺月。同时从产品总销量随年份和季度的变化曲线图来看,13年和14年的第一季和同年其他季度相比销量也较低,因此假设b正确。
针对假设c,我们抽取13,14和15年1,2月的销售量总变化如下图所示。通过历年的同比我们发现,15年的销售量不仅没有表现的很糟糕,而且比历年要好。从这个结果我们可以初步估计15年的销售总量将继续保持上升的态势,因此假设c不成立。
13-15年1,2月份总销量同比变化曲线3.3产品销量与用户,产品种类的关系3.3.1不同性别的用户是否青睐的商品不同?不同品类的产品销量及对应的各性别的销量如下图所示。考虑奥女性用户略多于男性,我们可以认为各类产品的销量在性别上没有显著性的差异。
各类产品产品销量及性别分布3.3.2不同年龄的用户是否青睐的商品不同?各年龄段购买的产品量与销售量前三甲(158,815和28)对应各自的销量关系图如下图所示。从图中我们可以看到,0岁宝宝的母婴产品需求量最大,且需求最高的类别是815。此后,随着年龄的增长需求逐渐降低,但是这三类产品需求降低的程度有所不同。815类产品只有在0岁随求量极高,而在1岁阶段,168和28的需求均已经超过了815。
各类产品产品销量及年龄分布我们已经单独分析了性别和年龄对各类产品销量的影响,考虑到性别和年龄可能存在交互影响(例如岁0岁基本只有女性购买商品,1岁基本只有男性),各年龄及对应性别的产品总销量的透视表如下图所示。从表格中可以看到,各年龄分布中的男性和女性购买数基本相等,这说明不存在某一个特定年龄段女性用户需求远大于男性(或相反)的情况。
用户年龄及性别与销售量的关系透视表3.4批量购买行为分析前面我们已经分析了非批量购买用户的规律,但是在实际数据中,这种情境下,购买的用户可能只有零星几个人,但是购买量却占据销售总量的21%,这一部分销量不容忽视。
基于此,我们探究如下一个问题:批量购买的用户更青睐什么类别的产品?
按照单次购买,多数购买和批量购买,各类产品销售总量的条形堆积图如下图所示。从图中我们可以看到,批量购买中占比最多的是815类产品,这直接导致了在总销量上815超过了168。其次,在28和38号产品也有少量的批量购买行为。
各类产品总销量及各类行为占比至于为什么会有用户喜欢批量购买815,28和38号产品,由于具有此类行为的用户较少,我们可以直接通过id查找用户,进行进一步的用户访谈,这将非常有利于平台拓展产品的销售渠道。
批量购买用户的数据清单4.结论与建议
本文主要从时间和用户两个维度分析了非批量购买行为下的天猫平台母婴类产品的销量,同时分析了批量购买这一特殊行为,本项目的总结和建议如下:
1.产品销量与时间,产品种类的关系
母婴类产品的销量在各月份之间存在很大的差异性。在2月受传统春节的影响,商家可能暂停营业而导致销售量存在大幅度的下滑。但在3月份,由于2月份的需求受到抑制,同时有妇女节等相关节日的拉动,购买数量又会大幅度反弹。针对这种现象,建议商家控制库存,尽量在年前即把商品销售出去。同时在年后针对需求反弹的现象加紧备新货,开展促销以迎接3月的需求旺季。在众多产品中168类产品的需求量最大,可以重点对此类产品开展营销。
在11月受双十一的影响销售量会有大幅度增长。在众多商品中168类产品的需求量仍然最大。因此商家在备战双十一时,可考虑加强对此类产品的宣传和储备。
从年度的角度来看,虽然报表显示15年第一季度销售量急剧下跌,但是这是因为时处销售淡季的2月,同时3月数据缺失导致的。从同比的数据来看,报告预测母婴类产品的需求量在15年不仅不会下跌,反而会继续稳健增长。因此商家和平台无需担忧,进一步抓紧采购商品,迎接3月的需求高峰即可。
2.产品销量与用户,产品种类的关系
母婴类品中女性用户的需求量略大于男性,但是在总体上我们认为并没有显著的差异。随着年龄的增长,用户对母婴类产品的需求量会大幅度降低,且在各年龄段用户对产品类别的需求存在差异。0岁是用户需求量最大的时段,此时需求量最大的商品是815,其次是168和28。在0岁之后,815类的商品需求量锐减,需求量最高的商品是168,其次是28,最后才是815。整体来看815是0岁最受欢迎的品类,168是1岁及以后最后欢迎的品类,商家平台可根据此对不同年龄段有针对性的做宣传推广。
3. 批量购买
在本报告中批量购买是指用户单次购买商品超过10件以上的行为。批量购买行为的发生有很强的不确定性,且由极少数用户发起,但是由此行为贡献的销售量却占销售总量的20%,因此此行为不容忽视。由于用户较少,商家平台可以针对这些少量的用户进一步访谈,明确用户批量购买商品的原因,这十分有利于拓展商品的销售渠道。