数据分析电商案例
时间:2023-03-15 22:16:01 | 来源:电子商务
时间:2023-03-15 22:16:01 来源:电子商务
数据分析5个步骤:
1. 提出问题根据业务需求提出想从数据中得出结论
2. 理解数据熟悉数据各个字段,理解业务
3. 清洗数据常用数据抽取函数:分裂,替换,查找,left,right,mid,
常用数据计算函数:average,sum,max,min,if,count(选定范围内包含数字单元格的个数),&,countif(选定范围内包含所给条件单元格的个数),date(可与MID搭配从身份证号码中提取年月日),datedif(开始时间,结束时间,返回d,m,y),or(两个逻辑判断,符合其中一个返回true,否则false)
- 1. 选择子集
- 2. 字段重命名
- 3. 删除重复值(删除重复项)
- 4. 缺失值处理
- 5. 一致化处理 (格式一致化,例如时间格式)
- 6. 数据排序
- 7. 异常值处理
4. 构建模型:数据透视表,vlookup跨表查询,vlookup分组,分析工具库(描述统计分析)5. 数据可视化实操:1. 提出问题- l 全年销售数量的波动情况,即离散程度,
- l 最多购买类目
- l 最多购买月份
- l 年龄与购买商品数量的相关性
2. 理解数据l User id:用户的唯一身份id号
l Action id:用于标记户行为的id号
l Cat id:一级类目
l Cat 1:二级类目,子类目
l Property :属性,描述特性,可以是一些标签
l Buy amount:购买的数量
l Day:购买日期
l Birthday:生日,可了解婴儿的年龄
l Gender:0男,1女
3. 清洗数据A. 新建文件,命名:购买商品 数据清洗; 婴儿信息 数据清洗
B. 修改字段名auciton id 为 action id;隐藏暂时无关字段 property
C. 删除重复值: 无需;
D. 缺失值处理:根据计数对比各字段,无缺失
E. 一致化处理:时间年月日格式;利用分裂功能,输出月日年;检查分裂后数据无异常
F. 按时间降序排序
G. 异常值处理:性别中存在“2”,无意义,不列入计算
最后清洗出 表1 与 表2 结果:
4. 构建模型
5. 数据可视化
各年龄购买数量占总购买量的百分比
男性女性购买数量占总量百分比
2013-2015每月销售量波动情况