电商数据分析(数据处理篇)
时间:2023-03-15 20:36:01 | 来源:电子商务
时间:2023-03-15 20:36:01 来源:电子商务
在kaggle上找到一份美国2020年的电商数据,数据信息比较丰富,拿来用excel做一下分析。
用excel进行数据分析有很多手动操作的步骤,需要用一些配图才能讲清楚,于是我将数据处理和数据分析分成了两篇来讲述。后面我将发一篇用python来进行数据分析的文章,对比会发现,用python来分析数据更多地是用代码来解决问题,操作更简洁,功能也更为强大。
查看数据
这份数据一共有3313行,包含19列的信息,英文列名和相应的含义如下所示。
选择子集和列名重命名
部分列(Row ID、country、Postal code)在分析时用不上,先将它们隐藏。
为了方便后面用数据透视表进行分析,插入一行添加英文列名的中文翻译,并将第一行的英文列名隐藏。为了避免用数据透视表分析时报错,前面隐藏的三列的列名也添加了中文翻译。
处理完后结果如下图所示。
删除重复值
依次选择:数据→删除重复项→选择所有列,没有发现重复值。
缺失值处理
依次选择:查找和选择→定位条件→空值,没有发现空值,说明数据集的整体情况比较理想。
处理日期数据
仔细观察订单日期这一列,发现有点问题。原本应该是日/月/年(15/4/20、16/7/20等)的日期形式显示成了年/月/日(2015/4/20、2016/7/20)的形式,需要处理一下。
在订单日期后面插入一新的一列。注意新插入的列要在这里的隐藏列(Row ID)的前面,可先取消隐藏再插入空白列。
选中订单日期这一列,再依次选择数据→分列,在弹出的对话框中选择固定宽度。
然后在两格之后建立分列线,这样数据就分成了两列,给第一列选择文本的数据格式,给第二列选择日期(D/MY)的数据格式。
点选完成后,就得到了处理好的日期数据。
将部分英文字段转换为中文字段
为了便于后续分析,我打算将表格中的部分英文字段转换为中文字段。
先新建一张参照的表格,将要转换的英文字段翻译成中文。为了避免混淆和便于理解,产品子类别的翻译加上了该子类别所属的大类。
在要翻译的列后新建一列,使用VLOOKUP函数将英文转换为中文(具体参数如下图所示)。
之后再将该公式应用到整列。
运用相同的方法,将运输模式、客户类型、区域、产品类别和产品子类别都转换成了中文,并将原英文列隐藏,完成后的结果如下图所示。
在城市名后面加上相应的州名
观察城市数据发现,存在不同城市使用同一个名字的现象。如下图所示,Georgia、Ohio、Indiana三个州都有名叫Columbus的城市。后面我想统计销售金额前十的城市,所以必须要把这些同名的城市区分开来。
excel有个好用的函数叫CONCATENATE,可以将不同的单元格和字符连接起来。这里我们在城市列后新建一列,使用CONCATENATE函数把城市对应的州连接在一起,具体参数如下图所示。
之后再把这个公式运用到同列,隐藏原有的城市列,就完成了同名城市的区分。
根据购买金额将客户分档
后面我想根据累计购买金额将客户分为不同的档次,统计每个金额档次客户的数量。
现在数据集中,一个订单的一种商品对应一条数据记录,这样一个客户会有多条数据记录。我们需要先计算出每位客户的累计购买金额。插入数据透视表,将客户ID作为数据透视表的行,勾选销售额(求和项)作为统计值进行分析,这样我们就计算出了每位客户的累计购买金额。
然后将生成的数据透视表复制到旁边,使用VLOOKUP函数用近似匹配的方式,按照不同购买金额档次给客户分档(具体购买金额档次的划分看下图)。
之后再将该公式运用到整列,这样不同客户的购买金额档次成功划分完成。
到目前为止,这份数据集的数据处理就告一段落了。虽然这些处理步骤很琐碎,但是到分析阶段大家就会发现前期充分的数据处理工作是多么值得。下一篇我们将在此基础上,对数据进行分析并进行可视化呈现。
数据分析篇指路→: