淘宝母婴商品电商数据分析(一)
时间:2023-03-26 01:44:01 | 来源:电子商务
时间:2023-03-26 01:44:01 来源:电子商务
因为对互联网电商行业比较感兴趣,自己现阶段需要累积项目经验,所以选择淘宝电商母婴用品购买数据进行练习,将近期学得的知识与业务相结合,学会如何分析电商行业数据。此次分析的主要使用工具为EXCEL。
数据分析的步骤通常分为:
- 熟悉数据集
- 提出问题
- 数据清洗与整理
- 数据分析与建模
- 数据可视化
我将通过这五个步骤,分析此淘宝母婴店铺数据,发现业务问题,并为其提出改进建议。
一、熟悉数据集
我选择的是淘宝和天猫婴儿用品数据分析,一共包含两个数据集
:数据来源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45表1:购买商品.csv 是淘宝会员的历史贸易记录,共包含2012年6月-2015年2月的29972条信息记录和7个字段。
表1:购买商品.csv 数据集部分截图表中字段信息及其含义如下:user_id:用户ID 该字段表示用户登陆app时使用的账号名称,每个用户都有唯一独立的ID。
auction_id:购买行为编号 用户在进行购买时的唯一行为标号,用数字作为标认细化处理用户行为的数据字段。
cat_id:商品种类ID 表示每个用户id购买的对应的商品种类,比如童装、童裤、童鞋。可以帮助判断顾客喜欢什么种类的商品。
cat1:商品类别 顾客购买的商品类别,是商品种类下的二级分类。比如商品种类为童装,则商品类别分为:外套、衬衫、裤子等。通过分析判断顾客喜欢购买哪一细分类别的商品,重要字段,可了解顾客购买偏好。
property:商品属性 商品的一些基本参数,帮助顾客在购买时了解商品,比如:颜色、尺寸、材质、品牌。
buy_mount:购买数量 代表顾客购买商品的数量,用于统计销量,了解哪一类商品销量较高。
day:购买日期 顾客购买商品的年月日
,可以了解商品在某段时间内是否复购及复购频率,商品是否集中在某一时间段热销。
表2:婴儿信息.csv共有954条数据信息,共包含三个字段:user_id:用户ID 用户登陆app时使用的账号名称。可通过此字段将表1和表2结合,得到用户购买的商品和婴儿年龄/性别关系。
birthday:出生日期 购买商品用户的婴儿年龄,可用于了解各年龄段购买情况
gender:性别(0男性,1女性)婴儿性别,可了解婴儿性别与用户购买的关系
表2:婴儿信息.csv 数据集部分截图二、提出问题并选择子集
分析完字段信息后,要思考我们想用数据获得什么信息,
想通过分析解决哪些业务问题。在思考业务问题时,我将站在卖方,也就是店铺/企业的角度去进行思考,根据现有数据分析关键指标,评估店铺运营情况,并给出改进建议。作为店铺,最终的目标是盈利+给用户带来价值,以此为出发点,我提出的问题有:1. 店铺整体销售表现:- 店铺年度/季度/月度总销量情况?并预测2015年销量趋势
以不同的时间维度去看店铺的销量情况,可以了解店铺整体的销售情况以及发展趋势。发掘是否店铺在某段时间内销量高/低,有什么特征,并分析原因。
2. 商品销售表现:- 店铺有哪几种商品?
- 热销商品是哪些,销量是多少?
- 不同种类商品销量的特征/趋势是什么?影响销量的原因有哪些?
了解店铺商品构成及每个商品的表现,找到影响销量的原因,帮助店铺优化运营和产品策略。
3. 用户方面:- 用户年龄和商品销量/类别关系
- 用户性别和商品销量/类别关系
对用户进行
年龄、性别两个维度进行分类,研究这两个维度和商品的关系。作用帮助店铺发现关键用户,构建用户画像,辅助精细化运营。
性别维度:用户分为男、女,结合购买性别、购买商品和数量,得出商品男女购买比例,分析出商品的主要用户性别群体。
年龄维度:分析主要用户年龄层,不同婴儿年龄用户购买比例,以及热销产品的用户婴儿年龄分布。
4.商品复购方面:忠诚用户是店铺持续创造商业价值的基础,以复购数据来了解店铺的忠诚顾客情况。
根据以上这些问题,可以得出需要的子集有:用户ID, 商品类别,购买次数,购买日期,购买数量,性别,出生日期。三、数据清洗和整理
数据的清洗整理通常包括以下这些步骤:选择子集,重命名列名,删除重复值,处理缺失值,一致化处理,数据排序,异常值处理等。1)选择子集:上文已选出需要子集。隐藏不需要子集:购物行为id和商品属性字段。用
vlookup函数多表关联,根据用户ID,精确查找出每个用户id对应的出生日期与性别。
2)重命名列名:将原英文名的字段名称全部修改为中文。拼接修改后的表如图所示:
淘宝天猫婴儿电商数据表拼接后表部分内容截图3)缺失值:所有列计数为29972条信息,无缺失值、空白值。
4)重复值:用户ID出现重复,原因是同一用户进行了多次购买行为,所以不删除。
5)异常值处理:出生日期和性别存在大量异常值。仅有957个婴儿出生日期和性别可与用户id匹配,而其他列计数为29972条信息。这说明很多用户的出生日期,年龄无法通过用户id查找匹配到数值,也就是说
很多顾客在购买时没有留下婴儿出生日期、性别信息,我将这两列的N/A定位条件-查找替换-空白。
性别数字出现异常,
为2的有27个,清除。
6)计算婴儿年龄。通过
分列将
购买日期/出生日期列数据转化为
日期型数据。用
datedif函数,计算当
用户购买商品时婴儿的年龄。操作完成后如下:
可以看到在计算年龄时有
NUM!出现,这样的错误值共有
143个。这是因为购买商品日期比出生日期要早,结果无法计算得出。这样购买可能有以下两种情况:
1.用户填写的婴儿年龄信息不真实,可能胡乱填写;2.婴儿出生前,用户已经开始购买商品。鉴于用户购买行为已经发生,
我将NUM!值单元格公式修改为:=datedif(购买日期,出生日期,"m"),得出128个用户购买日期比填写的出生日期早0-10个月(怀孕周期以内),以此推断这143个用户填写较符合上述提到的第二种情况:婴儿出生前,用户已经开始购买商品。下图为处理判断过程截图:修改datedif公式,通过相差月份推断用户是乱填出生日期,还是婴儿未出生,用户已开始购买商品判断用户是乱填写婴儿年龄or 在婴儿出生前已开始购买所以我将把这些在
婴儿出生前已经购买商品的用户婴儿年龄由NUM!更改为0岁。7)对数据中购买数量进行描述统计分析,结果如下:
发现购买数量中存在
异常值(最大值)10000,将其修改为中位数1。
四.数据分析和建模
1.店铺整体销售表现:1)店铺2013-2014年度总销量:- 数据只包含2012年下半年-2015年2月,所以只对比13-14年销量。
- 2013-2014年,店铺总销量同比上升,增长率约为41.3%。
2)店铺季度销量:- 一年四季的季度销量环比基本全部是增长的,下半年总销量约为上半年的2倍。
- 需注意:仅2014年第四季度销量环比减少,第三季度销量历史最高值,为10785。思考:此时段是否因为有促销活动导致销量大增?带着这个问题往下看。
- 季度销量同比增长。
- 需要注意:图中2015年第一季度销量同比减少,原因是数据集只记录了2015年第一季度1,2月的销量,3月未计入。但1,2月销量已达到4273,所以预计2015第一季度最终总销量会超越2014年第一季度销量。
3) 店铺月总销量:- 店铺每月总销量呈增长趋势
- 每年11月是商品购买高峰期,连续三年创新高,环比涨幅大,这也是后半年销量高的主要原因。推测是因为淘宝双十一大促影响,但还需更多分析验证。
- 每年1-2月是商品购买低峰期,推测原因是受春节期间物流配送影响。
2. 商品销售表现:1)店铺商品种类,热销商品及销量- 店铺共有6种商品,总销量从高到低排名为:28,50008168,500014815,38,50022520,122650008
- 不同商品销量差距较大。热销商品top1&top2&3:28,50008168,50014815销量约占据店铺销量的86%;38,50022520,122650008销量占比约为14%。
2)每季度不同种类商品销量每季度总销量每商品种类销量构成- 店铺所有种类的商品整体呈同比/环比增长趋势。
- 商品5008168和28销量波动较大,每年5月/11月都有一波购买小高峰,推测原因是这两种商品积极参与节日促销活动有关(母亲节/双十一),且促销对商品销量影响较大。其他商品销量基本保持稳定,促销期内销量仅有微小上升。
3.用户方面1)用户婴儿性别--婴儿男女性别购买数量占比:--不同类别商品婴儿男女性别购买数量:如图所示,母婴商品
男性总购买数量占比为女性的2倍。在深入去看不同类别商品男女的购买数量时,发现差异不大,也就是说
男女性购买此店铺商品的偏好是相似的。
2)用户婴儿年龄--婴儿年龄与购买数量关系可以看出,
越小婴儿的用户购买数量越多,养育
0-3岁婴儿的用户为
店铺购买主力。
--婴儿年龄与购买商品关系4. 店铺复购情况如图所示,店铺复购用户少,仅有
28个用户有复购行为,最高购买次数为4次,最低为2次,平均复购次数为2,说明
此店铺忠诚用户非常少,用户黏性低。综上,总结和建议如下:1.店铺与自身对比,在2012年下半年-2015年2月期间整体销售表现较好,呈同比/环比增长趋势,涨幅较大。预计店铺2015总销量将同比增长,2015季度销量将同比/环比增长,下半年销量预计约为上半年的2倍。建议店铺备货可根据预测销量趋势,每年第三/第四季度店铺需提前多备货,做好准备。起量产品28,5008168多备货。2
. 28,5008168为店铺起量商品,占总销量71%,头部效应明显。这两商品积极参与促销活动,销量反应较好。其他商品销量较低且稳定。建议店铺加大电商平台运营投入(比如促销活动), 多抓住节日营销的机会(母亲节,双十一等),对其他4个低销量产品发起促销活动,测试促销效果。搭建或优化产品组合策略,比如起量产品薄利多销,其他商品为高利润商品,用起量商品带动其他商品的销售。3. 建议店铺根据用户画像(性别、年龄)对不同商品进行精细化运营,比如商品28和5008168对婴儿性别为0-2岁的用户发放优惠券或进行推广。4. 本店用户忠诚度较低,需要建立完善的店铺会员体制,打造店铺会员购买体系,累积忠诚客户。同时,推出一些针对老客户的广告投放、促销优惠活动,比如给老客发放专属优惠券等吸引用户回购。可进行A/B test,测试效果。