18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 电子商务 > 淘宝母婴商品电商数据分析(一)

淘宝母婴商品电商数据分析(一)

时间:2023-03-26 01:44:01 | 来源:电子商务

时间:2023-03-26 01:44:01 来源:电子商务

因为对互联网电商行业比较感兴趣,自己现阶段需要累积项目经验,所以选择淘宝电商母婴用品购买数据进行练习,将近期学得的知识与业务相结合,学会如何分析电商行业数据。此次分析的主要使用工具为EXCEL。

数据分析的步骤通常分为:

  1. 熟悉数据集
  2. 提出问题
  3. 数据清洗与整理
  4. 数据分析与建模
  5. 数据可视化
我将通过这五个步骤,分析此淘宝母婴店铺数据,发现业务问题,并为其提出改进建议。

一、熟悉数据集

我选择的是淘宝和天猫婴儿用品数据分析,一共包含两个数据集

数据来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

表1:购买商品.csv 是淘宝会员的历史贸易记录,共包含2012年6月-2015年2月的29972条信息记录和7个字段。

表1:购买商品.csv 数据集部分截图
表中字段信息及其含义如下:

user_id:用户ID 该字段表示用户登陆app时使用的账号名称,每个用户都有唯一独立的ID。

auction_id:购买行为编号 用户在进行购买时的唯一行为标号,用数字作为标认细化处理用户行为的数据字段。

cat_id:商品种类ID 表示每个用户id购买的对应的商品种类,比如童装、童裤、童鞋。可以帮助判断顾客喜欢什么种类的商品。

cat1:商品类别 顾客购买的商品类别,是商品种类下的二级分类。比如商品种类为童装,则商品类别分为:外套、衬衫、裤子等。通过分析判断顾客喜欢购买哪一细分类别的商品,重要字段,可了解顾客购买偏好。

property:商品属性 商品的一些基本参数,帮助顾客在购买时了解商品,比如:颜色、尺寸、材质、品牌。

buy_mount:购买数量 代表顾客购买商品的数量,用于统计销量,了解哪一类商品销量较高。

day:购买日期 顾客购买商品的年月日可以了解商品在某段时间内是否复购及复购频率,商品是否集中在某一时间段热销。

表2:婴儿信息.csv共有954条数据信息,共包含三个字段:

user_id:用户ID 用户登陆app时使用的账号名称。可通过此字段将表1和表2结合,得到用户购买的商品和婴儿年龄/性别关系。

birthday:出生日期 购买商品用户的婴儿年龄,可用于了解各年龄段购买情况

gender:性别(0男性,1女性)婴儿性别,可了解婴儿性别与用户购买的关系

表2:婴儿信息.csv 数据集部分截图


二、提出问题并选择子集

分析完字段信息后,要思考我们想用数据获得什么信息,想通过分析解决哪些业务问题。在思考业务问题时,我将站在卖方,也就是店铺/企业的角度去进行思考,根据现有数据分析关键指标,评估店铺运营情况,并给出改进建议。

作为店铺,最终的目标是盈利+给用户带来价值,以此为出发点,我提出的问题有:

1. 店铺整体销售表现:

以不同的时间维度去看店铺的销量情况,可以了解店铺整体的销售情况以及发展趋势。发掘是否店铺在某段时间内销量高/低,有什么特征,并分析原因。

2. 商品销售表现:

了解店铺商品构成及每个商品的表现,找到影响销量的原因,帮助店铺优化运营和产品策略。

3. 用户方面:

对用户进行年龄、性别两个维度进行分类,研究这两个维度和商品的关系。作用帮助店铺发现关键用户,构建用户画像,辅助精细化运营。

性别维度:用户分为男、女,结合购买性别、购买商品和数量,得出商品男女购买比例,分析出商品的主要用户性别群体。

年龄维度:分析主要用户年龄层,不同婴儿年龄用户购买比例,以及热销产品的用户婴儿年龄分布。

4.商品复购方面:

忠诚用户是店铺持续创造商业价值的基础,以复购数据来了解店铺的忠诚顾客情况。

根据以上这些问题,可以得出需要的子集有:用户ID, 商品类别,购买次数,购买日期,购买数量,性别,出生日期。

三、数据清洗和整理

数据的清洗整理通常包括以下这些步骤:选择子集,重命名列名,删除重复值,处理缺失值,一致化处理,数据排序,异常值处理等。

1)选择子集:上文已选出需要子集。隐藏不需要子集:购物行为id和商品属性字段。用vlookup函数多表关联,根据用户ID,精确查找出每个用户id对应的出生日期与性别。

2)重命名列名:将原英文名的字段名称全部修改为中文。拼接修改后的表如图所示:

淘宝天猫婴儿电商数据表拼接后表部分内容截图
3)缺失值:所有列计数为29972条信息,无缺失值、空白值。

4)重复值:用户ID出现重复,原因是同一用户进行了多次购买行为,所以不删除。

5)异常值处理:出生日期和性别存在大量异常值。仅有957个婴儿出生日期和性别可与用户id匹配,而其他列计数为29972条信息。这说明很多用户的出生日期,年龄无法通过用户id查找匹配到数值,也就是说很多顾客在购买时没有留下婴儿出生日期、性别信息,我将这两列的N/A定位条件-查找替换-空白性别数字出现异常,为2的有27个,清除。

6)计算婴儿年龄。通过分列购买日期/出生日期列数据转化为日期型数据。用datedif函数,计算当用户购买商品时婴儿的年龄。操作完成后如下:

可以看到在计算年龄时有NUM!出现,这样的错误值共有143个。这是因为购买商品日期比出生日期要早,结果无法计算得出。这样购买可能有以下两种情况:1.用户填写的婴儿年龄信息不真实,可能胡乱填写;2.婴儿出生前,用户已经开始购买商品。

鉴于用户购买行为已经发生,我将NUM!值单元格公式修改为:=datedif(购买日期,出生日期,"m"),得出128个用户购买日期比填写的出生日期早0-10个月(怀孕周期以内),以此推断这143个用户填写较符合上述提到的第二种情况:婴儿出生前,用户已经开始购买商品。下图为处理判断过程截图:

修改datedif公式,通过相差月份推断用户是乱填出生日期,还是婴儿未出生,用户已开始购买商品
判断用户是乱填写婴儿年龄or 在婴儿出生前已开始购买
所以我将把这些在婴儿出生前已经购买商品的用户婴儿年龄由NUM!更改为0岁。

7)对数据中购买数量进行描述统计分析,结果如下:

发现购买数量中存在异常值(最大值)10000,将其修改为中位数1。

四.数据分析和建模

1.店铺整体销售表现:

1)店铺2013-2014年度总销量:

2)店铺季度销量:

3) 店铺月总销量:



2. 商品销售表现:

1)店铺商品种类,热销商品及销量

2)每季度不同种类商品销量

每季度总销量每商品种类销量构成


3.用户方面

1)用户婴儿性别

--婴儿男女性别购买数量占比:

--不同类别商品婴儿男女性别购买数量:

如图所示,母婴商品男性总购买数量占比为女性的2倍。在深入去看不同类别商品男女的购买数量时,发现差异不大,也就是说男女性购买此店铺商品的偏好是相似的

2)用户婴儿年龄

--婴儿年龄与购买数量关系

可以看出,越小婴儿的用户购买数量越多,养育0-3岁婴儿的用户为店铺购买主力

--婴儿年龄与购买商品关系



4. 店铺复购情况

如图所示,店铺复购用户少,仅有28个用户有复购行为,最高购买次数为4次,最低为2次,平均复购次数为2,说明此店铺忠诚用户非常少,用户黏性低。

综上,总结和建议如下:

1.店铺与自身对比,在2012年下半年-2015年2月期间整体销售表现较好,呈同比/环比增长趋势,涨幅较大。预计店铺2015总销量将同比增长,2015季度销量将同比/环比增长,下半年销量预计约为上半年的2倍。建议店铺备货可根据预测销量趋势,每年第三/第四季度店铺需提前多备货,做好准备。起量产品28,5008168多备货。

2. 28,5008168为店铺起量商品,占总销量71%,头部效应明显。这两商品积极参与促销活动,销量反应较好。其他商品销量较低且稳定。建议店铺加大电商平台运营投入(比如促销活动), 多抓住节日营销的机会(母亲节,双十一等),对其他4个低销量产品发起促销活动,测试促销效果。搭建或优化产品组合策略,比如起量产品薄利多销,其他商品为高利润商品,用起量商品带动其他商品的销售。

3. 建议店铺根据用户画像(性别、年龄)对不同商品进行精细化运营,比如商品28和5008168对婴儿性别为0-2岁的用户发放优惠券或进行推广。

4. 本店用户忠诚度较低,需要建立完善的店铺会员体制,打造店铺会员购买体系,累积忠诚客户。同时,推出一些针对老客户的广告投放、促销优惠活动,比如给老客发放专属优惠券等吸引用户回购。可进行A/B test,测试效果。

关键词:数据,分析,商品

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭