电商数据分析
时间:2023-03-15 20:08:01 | 来源:电子商务
时间:2023-03-15 20:08:01 来源:电子商务
目录
1 项目背景.. 1
2 数据来源.. 1
3 数据分析工作流程.. 1
3.1 提出问题.. 1
3.2 理解数据.. 2
3.3 数据清洗.. 2
3.4 数据分析.. 2
3.4.1 消费者属性.. 3
3.4.2 各类别产品销售额占比与消费者属性的关系.. 6
3.4.3 产品属性.. 8
3.4.4 各城市销售状况.. 10
4 结论.. 12
1 项目背景
由于大数据的兴起,数据在助力企业发展中发挥着重要的作用,企业更加注重对数据的运用,大数据越来越成为驱动业务的一个组成部分,在用户运营中发挥重要的作用。每个用户的在线行为直接影响着企业在推广产品上所作所为。本文通过研究用户的购买行为,作为商家运营和推广的指导。
2 数据来源
从Kaggle网站下载‘黑五’的消费者购物数据,对下载的数据集每个字段进行详细的分析,数据包含的字段有:用户ID(用户即消费者),产品ID,消费者年龄,消费者性别,城市类别,所在城市居住时长(以年为点位),消费者职业,商品类别1,商品类别2,商品类别3,购买金额。
3 数据分析工作流程
图 1 数据分析工作流3.1 提出问题
图 2 根据业务逻辑提出问题3.2 理解数据
图 3 数据源前10条记录从图3看出整个数据集显示了注册用户在电商网站的购买行为,对数据字段进行如下分析:
[1]. 用户ID:用户ID在记录中有重复显示,表明同一个用户可能购买了不同的商品。
[2]. 产品ID:每一种产品对应一个产品ID。
[3]. 性别:用于分析不同性别用户的购买行为。
[4]. 年龄:用户的年龄为一个范围,可分析各年龄段用户的购买行为。
[5]. 城市类别:用于分析不同城市的用户购买行为。
[6]. 职业类别:用于分析不同职业用户的购买行为。
[7]. 产品类别:用于分析用户的属性与产品类别的关系。
3.3 数据清洗
具体清洗流程如下:
为便于分析和阅读,将各字段名称用中文替换:
[1]. 性别中F用‘女’替换,M用‘男’替换;
[2]. 婚姻状况中0替换为‘未婚’,1替换为‘已婚’;
[3]. 重复值去除:对于用户ID和产品ID都一致的多行记录进行去重。
图 4 清洗后数据前10条记录3.4 数据分析
分析消费者的年龄,性别,婚姻状况,职业类别,居住城市的情况。
3.4.1 消费者属性
(一) 年龄分布情况
图 5 消费者年龄分布情况从年龄分布图上可以看出,‘黑五’期间,26-35岁为消费人数最多的人群;主力消费人群集中在18-45岁。
(二) 性别占比情况
图 6 消费者性别占比情况从性别占比图中可以看出,男性消费人群占75%,是女性消费人群的3倍。
(三) 职业类别分布情况
图 7 消费者职业分布情况 职业类别为4、0、7的职业,消费人群占比排名前三。
(四) 居住年数分布情况
图 8 消费者居住年数分布情况 从居住年数分布图中可以看出,居住满一年的的消费人群最多,随着居住年数增多,消费人数逐渐递减。可能原因是居住满一年,居住地比较稳定,开始购买一些非日常的商品。
(五) 婚姻状况占比
图 9 消费者婚姻状况已婚的消费者人数和未婚的消费者人数相差20%,说明未婚的人群更愿意在‘黑五’购买更多的商品。
总结分析:
1) 26-35岁为消费人数最多的人群。
2) 职业类别为4、0、7的职业,消费人数占比排名前三。
3) 男性消费人群占75%,是女性消费人群的3倍。
4) 居住满一年的的消费人群最多。
5) 未婚的人群更愿意在促销活动中购买更多的商品。
3.4.2 各类别产品销售额占比与消费者属性的关系
本例中选用销售额在前三的产品类别作为分析对象:
(一) 不同年龄段
图 10 不同年龄段的消费者消费的产品类别情况 产品类别1的消费群体随着年龄的增大,消费力度减小;
产品类别1的销售金额远大于产品类别5和8。
(二) 不同性别
图 11 不同性别的消费者消费的产品类别情况总结分析:
对于产品类别1,男性的消费金额占比高于女性15%;
对于产品类别5和8,男性的消费金额低于女性10%。
(三) 不同婚姻状况
图 12 不同婚姻状况的消费者消费的产品类别情况(四) 不同居住年数
图 13 不同居住年数的消费者消费的产品类别情况 (五) 不同职业类别
图 14 不同职业类别的消费者消费的产品类别的情况总结分析:
[1]. 产品类别1的销售额远远高与产品类别5和8;
[2]. 对于产品类别1,男性的消费金额占比高于女性15%;
[3]. 对于产品类别5和8,男性的消费金额低于女性10%;
[4]. 每种产品类别的销售额与婚姻状况、职业类别和居住年数关系不大。
3.4.3 产品属性
(一) 各产品的销售额(按产品类别)
图 15 各产品的销售额销售额最大的产品类别是类别1,占总的销售额比例将近40%。
(二) 各产品的销售额比例(按产品编号)
图 16 各产品的销售额比例 产品编号为P00025442的产品销售额占比最大,约为11.4%。
(三) 各产品的销量(按产品类别)
图 17 各产品的销量(按产品类别)产品类别5的销量占比最大;
(四) 各产品的销量(按产品编号)
图 18 各产品的销量(按产品编号) 产品编号为P00265242的产品销量最大,约为12%。
3.4.4 各城市销售状况
(一) 各城市销售额
图 19 各城市销售额 城市B的销售额最大,占总销售额的41%
(二) 各城市销量
图 20 各城市销量 城市B的销量最大,占销量的42%
4 结论
1.销量 top3商品编号为1、5、8,建议商家重点维护此类商品质量,并持续为客户提供优质的服务。
2.居住年数在1年以上,年龄在26-35,职位编号是4,0,7的顾客是购买的主力,商家需要重点维护。