电商数据分析——淘宝母婴商品数据分析
时间:2023-03-16 00:26:01 | 来源:电子商务
时间:2023-03-16 00:26:01 来源:电子商务
一、数据背景
本次分析主要使用的是淘宝天猫中购买婴儿用品的用户数据,即Baby Goods Info Data数据集,该数据集来源于阿里云天池网,由淘宝网和天猫网提供。主要反映2012年7月到2015年2月的商品销售情况。
该数据集包含两个表:
- 购买母婴商品表:Tianchi_mum_baby_trade_history
- 婴儿信息表:Tianchi_mum_baby
表格字段详细分析(1)购买母婴商品表
购买母婴商品表主要反映的是淘宝会员的历史交易信息,包含29971条记录,7个字段。这些字段的详细理解见下表。
/begin{array}[b] {|c|c|} /hline 字段名称 & 字段含义& 字段详细解释&数据类型// /hline user/_id & 用户id & {淘宝用户的编号,是不重复的值,//具有唯一性} & 数值型 // /hline auction/_id & 购买物品的编号& 对所卖商品的编号,具有唯一性 &数值型 // /hline cat/_id & 商品二级分类 & 表示商品属于哪个子类别 & 数值型 // /hline cat1 & 商品一级分类 & 表示商品属于哪个父类别 & 数值型 // /hline property & 商品属性 & {主要包含商品的各项规格,比如商//品品牌、名称、大小尺码、材质等//等,一切可以描述商品特征的都可//以称为属性值} & 字符型 // /hline buy/_mount & 购买数量 & 用户交易商品的数量 & 数值型 // /hline day & 购买时间 & {表示用户下单的日期,可以用于分//析在什么时段哪些商品或商品类别//比较受欢迎} & 数值型 // /hline /end{array}// 注:cat1和cat_id分别是商品的一级分类和二级分类,比如上衣是二级分类,衣服是一级分类,上衣是在衣服的大类下面。所以可以通过商品之间的类别包含关系探索更多,比如在某商品大类下什么子类别商品更畅销。
(2)表2:婴儿信息表
婴儿信息表包含的是淘宝或天猫消费者提供的孩子生日和性别,总共有954条记录,3个字段。每个字段的描述如下表所示。
/begin{array}[b] {|c|c|} /hline 字段名称 & 字段含义& 字段详细解释&数据类型// /hline user/_id & 用户id & {淘宝用户的编号,是不重复的值,//具有唯一性,与表1中的用户编号//相对应} & 数值型 // /hline birthday & 婴儿的出生日期& {通过出生日期可以计算宝宝年龄,//进而探索不同年龄段宝宝的购买偏//好} &数值型 // /hline gender & 婴儿的性别 & {值为0是女性//值为1是男性//值为2是未知的性别//可以分析不同性别宝宝的购买偏好} & 数值型 // /hline /end{array}// 二、分析思路
在分析过程中,采用多维度拆解分析方法将整体细分成多个子问题进行分析,并对每种问题采用假设检验分析方法和对比分析方法进行分析。
三、数据清洗
对数据进行预处理,便于后续的分析。数据清洗的步骤有:
- 选择特征子集:筛选在分析中需要用到的字段并对他们进行处理
- 列名重命名:变为方便理解的列名,中文/英文
- 删除重复值
- 处理缺失值
- 一致化处理
- 数据排序
- 异常值处理
(一)用于产品维度分析的数据清洗工作
在对产品维度进行分析时,将使用母婴商品表进行分析,因此要对该表格进行数据清洗工作。
1、选择特征子集
在产品维度分析中不会使用到auction_id和property,所以将这两列数据隐藏。
2、列名重命名
将英文列名转换成中文列名便于后续分析。
3、删除重复值
对于数据集中是否存在重复样本的识别,首先要确定数据集的主键,即可以唯一标识数据集中每条记录的特征,其次检查主键是否存在重复值,若存在,说明数据集中有重复的记录。
从字段含义上分析,对于用户交易商品数据,同一用户可能会重复购买多次商品,一天中会发生多项交易,一种商品可能被多次重复购买,而商品类别和商品属性与商品编号有关,因此单一特征无法实现唯一标识每条记录。对于这个数据集可以采用多种特征共同标识每条记录,即采用用户ID、商品一级类别和购买日期共同决定。因此,经检查购买母婴商品表中不存在重复值。
4、缺失值处理
检查数据集是否有缺失值比较简便的一种方式就是首先数据集中的样本数量,查看该列数据的数量,其次依次查看每个特征的数量是否与总样本数量一致,若数量小于总样本量,则说明该列有缺失数据。经检查,数据集不存在缺失数据。
5、一致化处理
日期格式处理:表格中购买时间字段的数据类型时数值型,为了便于分析不同时间下的销量,应将其转化为日期功能。这部分可以通过Excel中的“分列”功能实现。
6、数据排序
将数据按照购买数量降序排列。
7、异常值处理
对购买数量进行描述性统计,发现购买数量中位数是1,众数都是1,最大值为10000。由于在实际中可能会有大客户的存在,但这种情况占少数。这里主要分析一般情况下的销售情况,所以剔除与平均值的偏差超过三倍标准差的高度异常值,即剔除194.5以上的购买数量的数据,取整则剔除购买数量为194以上的数据。
至此,母婴商品表数据清洗工作结束,数据集一共包含29941条记录,5个字段。
(二)用于用户维度分析的数据清洗工作
在用户维度分析中,共同涉及到婴儿信息表和购买商品表两个表中的数据,所以将两个表格进行整合。
1、选择特征子集
婴儿信息表中的字段对后续的分析都有一定的意义,所以不对数据集中的某些字段进行隐藏。购买商品表中将隐藏auction_id和property两列数据。
2、列名重命名
对于两个表中的英文字段名转换成中文的
3、删除重复值
婴儿信息表该表中不存在重复值,所以不需要对其删除重复值操作。购买商品表的操作与之前相同。
4、处理缺失值
经检查,婴儿信息表中不存在缺失值。
5、一致化处理
(1)多表关联查询
在后续分析中,会分析有不同性别、年龄宝宝的用户的购买偏好,所以需要将购买母婴商品表和婴儿信息表进行关联。进行此项操作可以使用Excel中的vloookup函数,将婴儿信息表中的出生日期和性别特征包含进购买母婴商品表中。由于两数据集中的记录数量不匹配,并不是所有用户的婴儿信息都在数据集中,有些用户没有相关的宝宝记录。因此为了方便后续分析工作,只留下有宝宝信息的交易记录。结果如下:
(2)日期格式处理
表格中购买时间和出生日期字段的数据类型时数值型,为了便于分析不同时间下的销量,计算宝宝年龄等分析操作,应将其转化为日期功能。这部分可以通过Excel中的“分列”功能实现。结果如下:
对结果进行检查。通过筛选功能检查这两列所有数值,发现出生日期中有一条记录为“1984/6/16”。实际上,从购买时间上来看,该数据记录的是2012年-2015年的交易信息,孩子的出生日期不可能是1984年,所以这条记录属于异常值,将其删除。
(3)性别取值处理
婴儿性别使用数值代表男或女,在分析时会有很多不方便的地方,所以将性别值进行变换。这部分内容可以通过vlookup函数实现。
首先要定义分组,确定每个分组的取值范围。如下所示:
然后用vlookup函数进行值的匹配。操作过程:
整体结果如下所示:
然后通过筛选功能检查是否有异常值,最后将不用于分析的列隐藏起来。
6、添加年龄列
在后续分析中需要分析不同宝宝年龄的购买偏好,所以需要在数据集中添加年龄,可以通过出生日期进行计算。在这里使用Excel的隐藏函数datedif。将未出生宝宝的年龄设置为-1。
另外,为了便于后续分析,可以将年龄进行分组。使用vlookup进行操作。定义分组:
分组结果:
7、数据整理
在进行完以上步骤后,再次检查数据集中的数据缺失情况,仅商品属性列有两个缺失值,其余数据均是完整的。
至此,母婴交易数据的数据清洗工作结束。清洗后的数据集包含954条数据,10个特征。将清洗好的数据复制存入一个新Excel文件中。
四、数据分析及可视化
(一)产品维度1、商品销量随时间如何变化?根据商品在各年份的销售总量,可以得到商品销量的总变化
从上面图表可以看出,2012年到2014年母婴用品的销量逐年攀升,但到2015年数据突然下降。
提出问题:为什么2012年和2015年的销售量远低于2013年和2014年的销售量?
假设:2012年和2015年的销售数据不全
收集证据:2012年到2015年每个月份的销售数据,展示如下:
通过查验,数据集中2012年只有7月到12月的销售数据,2015年只有1月份和2月份的销售数据。由于数据不完整,所以导致2012年和2015年的销售数据偏低。
得出结论:假设成立,2012年和2015年销售量低是由于全年数据不完整。
从2013年和2014年的全年销售数据变化来看,可以发现母婴商品的销售数据成上升趋势,从不同年份商品销量数据可以看出2014年的销售量比2013年的高出8000多。因此,母婴商品的电商销售情况呈现向好态势。
进一步,从各月份销售量变化趋势可以发现每年的11月份和5月份都会出现销售小高峰,销量较其他月份要高。而每年的1月或2月会出现销售低谷。这是为什么呢?下面用假设检验分析方法和对比分析方法展开分析。
提出问题:为什么每年11月份会出现销售小高峰?
提出假设:11月份出现销售小高峰可能是受双11活动的影响。
收集证据:将2012年、2013年、2014年的11月份销售数据分别按日期展开展示。由于2015年只有前两月份的数据,所以在这里不做考虑。
从图表中可以看出,2012年11月在5号、10号到12号的销量较高,其中10号这天销量最高达到266;2013年11月在1号、6号、11号、30号的销量较高,其中11号的销量最高达到307;2014年11月在11号、15号、22号、26号这几天销量较高,其中11号销量最高达到774。
因此,可以发现2012年、2013年和2014年的11月份都在双11左右出现销售高峰,高于其他日期的销量,说明双11促销活动导致销量增高。
得出结论:假设成立,双11活动促进消费。
提出问题:为什么每年5月份出现销售小高峰?
提出假设:可能是由于店铺在5月份的某些节日做了促销活动。
收集证据:由于2012年和2015年的数据不全,所以在这里只展开2013年和2014年5月份每日的销售数据。
从图表中可以发现,2013年5月份在20号和30号的销量比较高,2014年5月份在12号、27号的销量比较高。两年中销量高峰相同的地方是在5月20日左右,所以猜测可能是由于520节日做了促销活动所以销量上升。另外2013年的5月13号、2014年的5月12号也同时出现了小的销售高峰,经查看日历,发现与当年的母亲节时间吻合,所以猜测可能是在母亲节中做了某些活动。
得出结论:假设成立。在5月份的节日中举办促销活动促进了销量提升。
提出问题:为什么每年的1月份或2月份出现销售低谷?
提出假设:可能由于春节假期快递停运等影响了销量。
收集证据:对2013年、2014年1月份和2月份的日销售量数据进行展开展示。由于2012年和2015年的1月份、2月份数据不全,所以在这里不进行展示。
经调查2013年春节假期为2月9日至2月15日,2014年春节假期为1月31日至2月6日。从图标中可以发现,2013年2月2日至2月15日期间销量处于低谷,恰逢当年春节期间;2014年1月26日至2月3日的销量处于与低谷,同样这个时期与当年春节假期吻合。其他时间销量正常。因此,可以说明春节假期中快递歇业对销量产生一定负面影响。
得出结论:假设成立,每年1、2月份由于春节假期影响导致销量降低。
2、不同类别商品销量是否有差异?热销产品有哪些?从以上图表可以看出,在所有一级类别商品中,销量最高的是28类商品,其次是50008168和50014815类别商品。因此,28类商品比较受消费者欢迎。进一步分析各类商品的销量,根据公式“销量=购买人数*人均购买数量”将销量拆解为购买人数和人均购买数量来分析。
但从上图中可以看出,购买商品人数和人均购买数量的排名均与销量排名不同。用户购买人数最多的产品类别是50008168,其次是28和50014815两类别商品,与总销量排名相比,销量最高的28类别商品的购买人数并不多,但人均购买商品数较多。人均购买量最高的是38类别商品,然而其购买用户数和销量都不高,销量排名第二的50008168类别商品的人均购买数量较低。
提出问题:为什么购买人数最多的50008168类商品的人均购买量较低?
提出假设1:可能是由于50008168类商品不是经常再购买的商品。
提出假设2:可能是由于50008168类商品本身的原因造成人均购买数量低。
收集证据:需要具体关注50008168类商品的类型,是否为非消耗品。如果不是,就可以关注50008168类商品的产品是否不能满足用户的需求、推广力度不够等方面进一步分析,由于此处数据信息不充足,所以无法再进一步找出问题根源。
提出问题:为什么人均购买量很高的38类商品的销量和购买用户数较低?
提出假设:将这个问题从三方面进行拆解:
- 产品方面:该类产品可能没有满足大多数用户的需求?
- 竞品方面:该类商品中包含的品牌商品价格可能相较于其他品牌价格较高,其他品牌的促销活动可能比该类商品举办的频繁
- 运营方面:该类商品的推广力度可能不够
收集证据:将该类商品的特征与其他竞品特征做对比,收集同类的其他品牌商品的价格数据,以及其他品牌举办促销活动信息等等。由于当前资源有限,所以无法对相关问题进行更深一步分析。
可以看出销量最好的二级类别商品是50018831,说明50018831类商品最受消费者欢迎。其次是50013636类商品和211122类商品。销量最好的这三类商品并不完全属于销量比较好的一级类别。其中,最畅销的50018831类别商品属于销量排名第三的50014815一级商品;销量排名第三的211122类别商品属于38大类。至于其他二级类别,50013187、50003700、50011993二级类别属于销量虽多的28大类商品,50012451、50013207、50010558、50006602、50013636二级类别商品属于销量排名第二的50008168。
主要分析2013年和2014年各类商品的销售情况。从图表中可以看出,2014年各类别商品的销售量均高于2013年各类商品的销量,其中28和50008168类别商品增加最为明显,说明这两类商品受到了用户的欢迎。
3、商品复购率如何?根据公式“复购率=在一定时间段内的重复购买人数/总体购买人数”,首先计算2012年7月-2015年2月期间的整体复购率。这段时间中,发生重复购买行为的用户数为25人,有购买行为的用户总数为29914,所以总体复购率为(25/29914)*100%=0.0836。可以发现商品的复购率是很低的。
我们再来看各一级类别商品的复购率。
从图表中可以发现各一级类别商品的复购率仍然很低,甚至在50022520和122650008类别商品的复购率为0%。说明各类商品的用户粘性较低。
提出问题:为什么母婴商品的复购率很低?
提出假设:从三个维度拆解进行分析
- 竞品维度:整体行业的复购率比较低
- 产品维度:可能产品存在一定问题,比如没有满足用户的需求,用户使用体验不佳;也可能是商品的性质不是用户重复需要的
- 用户维度:由于商品描述或者客户服务不到位,使得用户不再购买商品
收集证据:与市场部交流,需要收集同类型其他品牌商品的复购数据,与本产品类别进行对比分析;与产品部交流,收集用户需求信息和产品相关数据,进行分析;与运营部交流,需要了解客户服务等情况。由于资源限制,无法再更深一步进行分析。
(二)用户维度1、年龄层面
根据用户的宝宝年龄和各种类商品的销量情况,分析不同年龄宝宝的购买偏好。
从上面图标可以看出,有0-2岁宝宝的用户的购买商品数据量最多,说明0-2岁宝宝的购买需求很大。其次是有2-4岁宝宝、未出生宝宝和4-6岁宝宝的用户的购买商品数量较多。但是有6岁以上宝宝的用户对母婴商品的购买商品数量较少,说明6岁以上宝宝的对母婴商品购买需求较低。所以可以侧重6岁以下宝宝用品的产品推广。
由于6岁以下宝宝用品的销量比较多,所以在这里重点分析6岁以下宝宝的购买偏好。从上面图表可以看出,未出生和0-2岁宝宝中50014815类商品的销量最多,说明50014815类商品受到2岁以下宝宝的欢迎。2-4岁宝宝和4-6岁宝宝中50008168类商品的销量最多,说明2到6岁的宝宝更偏爱于50008168类商品。
2、性别层面
根据用户的宝宝性别和各种类商品的销量情况,分析不同性别宝宝的购买偏好。
为了准确分析不同性别宝宝总体的销量对比,在这里不考虑未知性别的宝宝。从上述图表中可以看出,女性宝宝的购买商品数量占总体63%,远高于男性宝宝的购买商品数量。说明有女性宝宝的用户的购买需求要高于男性宝宝的用户,购买欲较强。
从上面图表中可以看出,在所有类别商品中,女性宝宝用户购买50014815类商品的数量最多,其次是50008168类商品、28类商品和38类商品,这四类商品女性宝宝的购买数量均高于男性宝宝,说明女性宝宝对这四类商品的需求量比男性宝宝的大。其他两类50022520类商品和122650008类商品在男性宝宝和女性宝宝中的销量都比较低,并且销量相差不大,说明男性宝宝和女性宝宝对这两类商品的需求差异不大。
五、分析建议
1、对于上半年销量,可以着重在5月份时加大宣传和促销活动,进而拉动上半年的母婴商品销售情况,对于下半年们仍然可以继续进行双11的促销活动。但需要注意在促销活动前应保持合理且充足的库存,否则会影响用户购买体验。
2、在春节期间由于快递停运给用户带来的不便使得商品销售量比较低,所以在春节期间一方面应注意库存的管理,另一方面注意对客户的服务。另外,可以在春节前或春节过后采取促销活动,加强推广以提升销量。
3、一级类别28、50008168和50014815三种类别销量最高,且在各年份中这三类商品的销量一直较高,所以可以大力推广宣传和供应这三类商品。
4、根据二级类别商品销量情况,关于有效提升销量最差的38类一级商品销量,可以着重推广宣传211122类商品,比如在用户搜索38类商品相关的信息时,可以重点推荐211122类商品。另外可以重点推广50018831类商品以进一步提升50014815类商品的销售情况。
5、针对复购率低的问题,可以提升客户售后服务,充实商品介绍,改善客户的购物体验,或者加大对各品类的宣传力度,在合理范围内发放优惠券等活动,以提升复购率。
6、0-2岁宝宝的购买力度比较强,购买人数较多,所以可以重点针对0-2岁宝宝需要的商品进行大力推广。由于未出生宝宝和0-2岁宝宝对于50014815类商品购买较多,可以重点将这两类商品推荐给用户,而对于2-6岁宝宝可以重点推荐50008168类商品,以迎合购买用户的需要。
7、从用户性别来看,女性宝宝比较偏爱于50014815类商品,可以重点将这类商品推荐给用户。而对于男性宝宝可以重点向其推荐50008168类商品。