电商婴儿商品销量分析
时间:2023-03-26 07:54:01 | 来源:电子商务
时间:2023-03-26 07:54:01 来源:电子商务
一、提出分析问题
- 常见电商数据分析指标
参考书目《数据化管理:洞悉零售及电子商务运营》2.母婴销售人货场分析思路
参考书目《数据化管理:洞悉零售及电子商务运营》3.根据分析思路提出问题
现就阿里云天池上下载的淘宝和天猫上母婴用品的销售数据进行分析
数据来源:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45由于本次数据集收集到的数据有限(数据集介绍见下文“理解数据”部分),电商指标暂无法分析,人货场模型中也仅有部分可分析。
根据已有的电商婴儿销售数据及分析思路,提出如下问题
二、理解数据
数据集有两个文件:
- 电商用品交易数据:提供“购买用户ID”、“订单号”、“子品类”、“大品类”、“商品属性”、“购买数量”、“购买时间”信息。
2.儿童信息表:提供“用户ID”、“儿童出生日期”、“儿童性别”信息。
两张表通过“用户ID”关联。
三、数据清洗
- 选择需要的子集
想要解决之前提出的问题,需要知道如下数据:销量、儿童年龄、大品类、儿童性别。会用到子集“购买用户ID”、“大品类”、“购买数量”、“购买时间”“儿童出生日期”、“儿童性别”(儿童年龄=购买时间-购买数量)
2.列明重命名
为方便查看,将列名重命名为中文
3.删除重复值
“用户ID”是唯一标识,据此查找重复项并删除
4.缺失值处理
通过查看每列的计数值,发现一致,无缺失值
5.一致化处理
a.为了计算年龄,将日期信息数据处理成日期格式
数据—分列(日期格式)
另一张表同样处理
b.将儿童的性别由数字变为文字
0:女
1:男
2:未知
c.通过vlookup函数将儿童性别和出生日期匹配至交易数据表
发现只有953数据可以匹配到,选取这953条数据
d.计算儿童年龄
儿童年龄=(购买日期-出生日期)/365
e.通过vlookup函数对年龄进行分组
6.异常值处理
通过筛选发现:
a.儿童年龄有1个为28岁,明显为错误值,删去。
b.儿童年龄有负数,-1岁以内有130个数据,应该为备孕期的妈妈替孩子购买的商品,故推断出此时购买的商品属于0-1岁。小于-1岁的有14个值,为异常值,删去。
四、构建模型,得出分析结果
五、总结及建议