天猫/淘宝母婴电商数据分析
时间:2023-03-26 07:00:01 | 来源:电子商务
时间:2023-03-26 07:00:01 来源:电子商务
1 原始数据概览
1.1 数据集介绍
本文用以分析的数据主要是来自淘宝和天猫上购买婴儿用户,数据集包括2个excel文件,分别为表1购买商品、表2婴儿信息,两表通过用户ID字段进行联结。
数据集来源:阿里巴巴天池
1.2 字段概况
user_id(用户id)、auction_id(购买行为编号)、cat_id(商品种类ID)、cat1(商品二级分类)、property(商品属性)、buy_mount(购买数量)、day(购买时间)
user_id(用户id)、birthday(出生日期)、gender(性别(0 男性;1 女性))
2 数据清洗与处理
2.1数据规范化处理
- 婴儿信息表-性别字段,男性记为0,女性记为1;但数据表中存在部分值为2情况,这些记录均属于异常值,无实际意义,因而将其删除;
2.2根据分析所需,进行相应字段的处理与创建
此处所指年龄指在购买商品时该婴儿的年龄,计算婴儿交易发生时年龄的逻辑是用商品购买下单时的时间减去婴儿的生日。
为进行计算,首先需要利用vlookup函数,将婴儿信息表中的相关字段(婴儿生日与婴儿性别)匹配至购买商品表,在此过程中,利用用户ID字段作为匹配项,经过匹配,29972条数据仅有931条得到匹配数据,这表明其他顾客在购买时未能采集到顾客的相关信息。
其后,由于原始数据中购买时间与婴儿生日不是标准的时间格式,这里通过excel-数据-分列中相关功能将这两列数据转化为标准时间格式数据。
第三步,用购买时间减去婴儿生日,得出在交易发生时,该婴儿的年龄。
第四步,将匹配到婴儿生日的九百余条数据,另外建表,表名为
婴儿信息表。总表与之区分,称为
销售汇总表。
以下操作仅对婴儿信息表进行。观察年龄列分布,发现存在异常值,箱线图如下所示(SPSS):
为排除异常值,利用异常值判定公式,计算临界值,排除年龄值在(-4.5~7.5)之外的数值。这里k取1.5。
最后,观察销售数量数据,发现一条销量为10000,经过与其他数据对比,发现明显异常。处于对后续数据分析准确性考虑,这里提出异常值所在记录,防止因为个别极端值对后续数据分析整体造成误导。
3 数据分析
3.1分析框架与思路
本文分析将按照以上框架,分别从产品与用户两个角度进行。
分析目的在于了解现有母婴产品销售状况,对原始数据进行数据探索,发现其中存在的业务问题,分析其原因,为未来业务推进提供指引,最终实现销售总额的提升。该模块使用的分析方法包含对比分析法、多维度拆解方法及假设检验分析方法等。
这里分析核心目标为提升销售总额,根据销售总额公式对指标进行分拆如下:
将销售总额拆分为访客数、转化率、客单价、购买频率四个细化指标之积,想要实现销售总额的增长,最理想的状况是以上四个细分指标均上升。根据现有数据及指标现实含义,本模块分析将按照以下几个部分进行:
①销售数量从指标含义来看,访客数与转化率之积为购买数量,加之原始数据仅有购买数量字段,并无访客数及转化率数据,因此,第一部分将从指标“销售数量”着手进行进一步数据分析;
②客单价由于现有数据集缺乏商品价格及相关字段,因此无法通过计算得出顾客客单价,因此,本文暂不对店铺客单价状况做进一步分析解读;
③购买频率/复购率最后一部分是用户的购买频率,该指标可以通过现有数据得出,此外,此处也可引入复购率这一指标进行补充分析,了解店铺留客状况;
分析目的在于了解不同性别及不同年龄用户对母婴产品的偏好情况,此处主要采用对比分析的方法。只有了解细分群体用户需求的差异,才能使得未来的销售工作更有针对性,更加精准,从而提升店铺转化率,扩大营收。
3.2 产品角度该模块分析不涉及婴儿信息,因此使用
销售汇总表数据进行分析。
3.2.1 销售数量
3.2.1.1 思路1:从年度销售数量探索
利用数据透视表,得到按年度计销售数量,并做折线图,如下所示
根据以上折线图,可以看到2012年及2015年两年销售数量较其他年份数据低很多,存在异常情况,因而需对这一异常现象进行探索。
问题1:2012年及2015年销售数额过低,存在异常。假设1:2012年以2015年部分数据存在缺失导致整体数据呈现异常。
论证1:为验证假设1,对原始数据按月份进行汇整处理。如下所示:
根据以上图表显示,原始数据中明显缺失2012年1-6月及2015年3-12月的数据,因而在上文年度销量折线图中2012年与2015年存在过低的问题,从而证明以上假设成立。
结论:假设成立。2012及2015年数据缺失导致销量异常。问题2:2015年2月销量数据低于前两年2月份销售数据,不符常理。从按月分拆的销售数量折线图中能看出,除个别月份外,自2012年至2015年,每月销售数量均呈现上升趋势,符合对业务发展的基本认知。但2015年2月销量数据明显过低,与业务发展趋势背离。
假设2:2015年2月数据缺失,不完整。
论证2:为验证假设2,对2015年两个月的原始数据按日进行汇整处理。如下所示:
根据以上图表显示,原始数据中2015年2月的数据仅有1-5日,数据不完整,因而可证明以上假设2成立。
结论:假设成立。2015年2月数据缺失导致销量异常。3.2.1.2 思路2:从月度销售数据探索
利用数据透视表,得到按月度计销售数量,并做折线图,如下所示
从以上月度销售数量折线图中,可以看到
销售量存在显著的月度差异。2月、3月销售数量都较低,均为三千左右;而1月、5月、7月至12月,销售数量均较高,尤其是11月,销售数量达到年度销售峰值。以下将对这一现象进行归因分析。
问题3:11月销售数量远高于其他月份。假设3.1:双11电商促销活动导致11月销量大增。
论证3.1:为验证假设3,对11月销售量数据按日拆解,绘制折线图。如下所示:
以上图表可得,销量在11月11日当天,出现大幅上涨,并达到当月销量峰值。基于双十一当天销量数据出现显著增长,可得出结论,
双十一活动促进了销量的大幅增长。结论:假设成立。双十一导致十一月销量增长。假设3.2:十一月份数据出现暴增,可能是受到某年特殊情况影响。论证3.2:为证明以上假设,首先将每年11月数据按年拆分,如下图所示:
由上图可知,2012年、2013年、2014年销量均在11月10日或11日出现大幅上涨,尤其是2014年,双十一当日增幅较前两年大幅提高。
结论:假设不成立。各年度双十一母婴产品销量均大幅上涨,且随着时间推移,增幅呈递增态势。;问题4:9月销量出现较大幅度增长。假设4:中秋节促销及淘宝9.12辣妈囤货季活动,促进销量增长。论证4:为分析9月销量增长原因,将9月销售数据按天进行分拆,如下图所示:
上图中可以看到,9月20日销售数量远高于其他日销量,由于当天并非节假日及电商促销时间,因而返回原始数据查看当天销售订单,确认是否存在极端值影响。根据原始数据所示,2014年9月20日,有一订单销售额为2748,由于其远远大于其他订单销售量,因此对数据分析有一定误导。因此剔除该条记录,重新进行汇总分析。
首先查看各年中秋节销量状况。经过核对2012年9月30日、2013年9月19日及2014年9月8日三日销售数据,发现当日并未出现销量增长。因而得出结论,并非是中秋节促销相关原因导致9月销量增长。
其次,上图中发现2013年及2014年9月12日,销量均出现不同程度增长,尤其是2014年销量增长极为显著。从而验证了部分假设,淘宝9.12辣妈囤货季活动导致当月销量数据大幅提升。
结论4:假设部分正确。9月产品销量增长来源于淘宝9.12辣妈囤货季活动,中秋节促销对当月销量无明显影响。问题5:2月销量出现大幅下跌。假设5:春节原因导致2月销量出现下跌。论证5:为证明以上假设,首先将2月数据按年拆分,如下图所示:
分析之前,经过查询2013年及2014年数据,明确春节时间。
2013年春节假期为2月9日至2月15日,上图中我们可以看到,2013年2日至2月15日,销售量降至极低的水平,而2月16日,销量出现回升。由此得出,2013年受春节假期影响,销量大幅下降。
2014年春节假期为1月31日至2月6日,在图表中可以看到这段时间产品销量亦较低,而2月7日,销量出现小幅回升。因此可得,与2013年相同,春节加期导致该月销量下跌。
结论5:假设成立。受春节假期影响, 2月销量出现大幅下跌。3.2.1 复购率
为分析店铺复购率状况,利用数据透视表得出复购客户的数量,如下:
根据上表可得,该店铺所有29943位顾客中,仅有25位顾客选择进行回购,
复购率为0.0835%,不到0.1%,复购率极低。复购率较低原因可能有很多。首先,在产品方面,店铺产品质量不佳、产品性质因素等均会导致复购率低;其次,在店铺服务方面,购买流程繁琐、售后服务太差等原因也会导致顾客流失。
由于此处缺乏更多业务信息及统计数据,此处不对复购率低的原因做进一步深入分析。
3.3 用户角度
由于该模块分析需用到婴儿性别及年龄数据,本模块分析使用
婴儿信息表内数据。该数据表内共有914条销售数据。
3.3.1 不同性别婴儿产品偏好
3.3.1.1婴儿性别分布
利用数据透视表,得出数据表中婴儿男、女数量及其各自占比。
根据所得数据,做饼状图。
结论:由以上数据可知,在淘宝及天猫平台上产生交易婴儿,男性所占比例略大于女性。3.3.1.2不同性别婴儿产品偏好
根据数据透视表,得:(表中红色底色部分表示同时出现在男、女婴儿销量top10榜单中得商品类别)。
以下就男、女婴儿销量top10商品类别进行图表呈现:
结论:根据以上图表,在男、女婴儿销量top10商品中,部分商品男女消费无明显差异,但也有商品呈现明显得性别偏好。类别编号为50018831、50012456、50018825、211122、50013187、250822等的商品,从购买量来看,更受男性婴儿欢迎;
而商品50010558、50019993、50012451、50007011的购买者中,女性占比明显更高。
3.3.2 不同年龄婴儿产品偏好3.3.2.1婴儿年龄分布
利用数据透视表,得出数据表中婴儿年龄分布状况。
结论:由以上图表可知,顾客婴儿年龄主要集中于0-2岁,其他年龄段占比较少。3.3.2.2不同年龄婴儿产品偏好
①年龄1:该年龄段婴儿购买的商品主要集中于50018831,占年龄为1总销量的39.2%。
②年龄0:该年龄段婴儿购买的商品主要为50013187、50006602等,总体看,年龄段为0的婴儿对很多种类商品都呈现出了一定数量的需求,整体数据比较分散。
③年龄2:该年龄段婴儿购买的商品主要为50018825、50012456。
④年龄3:该年龄段婴儿购买的商品主要为50013636、50018831。
⑤年龄4:该年龄段婴儿购买的商品主要集中于211122。
⑥年龄-1:该年龄段婴儿购买的商品主要为250822,其他商品购买量少。
⑦年龄5:该年龄段婴儿购买的商品主要为50006602,其他商品购买量较少。
其他年龄段顾客数量过少,此处暂不进行分析。4 结论与建议
①结论一:根据对过往销售数据进行分析,可以看到除春节停工外,大型节日及特定电商促销日到来,会极大促进产品销量大幅上涨。
- 建议:抓住相关节日及平台促销活动时机,推出促销活动,利用节日优惠政策吸引客流,提高当日转化。需注意的一点在于,需在活动前备足货源,保证节后发货。此外,由于春节期间销量大幅下跌,因此需提前做好准备,避免年中大量存货,也可根据实际情况调整营销力度。
②结论二:该店铺复购率极低。
- 建议:针对店铺复购率下降这一现象做深入分析,了解造成原因,有针对性的进行改善,增强对老顾客的维护及运营。
③结论三:顾客中,不同性别、不同年龄婴儿占比各不相同,而不同群体的婴儿对产品类型也有显著的偏好倾向。
- 建议:在产品营销过程中,根据不同群体客户产品偏好,有针对的进行精准推送,有助于提升营销及推广的效率。