数据分析 - 用 Excel 分析电商数据
时间:2023-03-15 20:20:01 | 来源:电子商务
时间:2023-03-15 20:20:01 来源:电子商务
Excel是日常工作中最常用的工具, 同样可以用来进行数据分析,找出数据背后隐藏的规律。
一、数据分析的步骤
数据分析一般分为5个步骤:提出问题 -> 理解数据 -> 数据清洗 -> 构建模型 -> 数据可视化。
二、用Excel分析数据电商数据
使用数据的是社群资料里的电商行业数据集,即淘宝和天猫婴儿用品的数据集。这个数据集包括2个CSV格式的数据;因为用Excel做数据分析,所以把CSV格式更改为XLSL格式来打开。
1. 数据分析第1步:提出问题 - 我们要分析哪些业务指标?
通过对“淘宝和天猫婴儿用品的数据集”的分析,主要解决以下业务问题:
1)以年为单位,分析销售数量的每年的变化趋势。
2)以年为单位,分析婴儿用品的商品种类的销售数量的变化趋势
2. 数据分析第2步:理解数据
理解数据主要是了解表格里l各个字段表示什么含义?每个字段都是哪种数据类型?
表1是“购买商品”数据,共有7个变量,29971条数据信息。存储的数据类型,除了“property:商品属性”是字符类型外,其他6个都是数字类型。
其中这7个变量为:
user_id:用户id
auction_id:购买行为编号
cat_id:商品种类ID
cat1:商品属于哪个类别
property:商品属性
buy_mount:购买数量
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)
表2是“婴儿信息表”,共有3个变量,953条数据信息。存储的数据类型都是数字类型。
其中这3个变量为:
user_id:用户id
birthday:出生日期
gender:性别(0 男性;1 女性)
3. 数据分析第3步:数据清洗
作为数据分析最重要的一个步骤,数据清洗往往需要花费60%甚至更多的时间。需要将多余重复的数据筛选清除,将缺失数据补充完整,将错误数据纠正或删除。
数据清洗的步骤如下:
1) 选择子集:选择需要做数据分析的列。当数据的列比较多时,可以使用隐藏功能 - 把不需要分析的列单击右键隐藏起来。
2) 列名重命名:如果原字段名不合适,可以更改字段名称。
本次分析直接使用原始数据的列名,因为原始数据的命名已经很清晰了。
3)删除重复值:选中要分析的数据范围, Data - Remove Duplicates来删除重复值。
按照以上操作,分别查看表1“购买商品”数据和表2“婴儿信息表”的是否有重复值;这2个数据集都显示无重复值。
4)缺失值处理:Excel中通过选中某一列,查看右下角显示的统计数目来,通过和其他列对比来得知该列是否有缺失。
有4种方法对找到的缺失值进行处理:
1 - 通过人工手动进行补全,这种方法适合缺失数值标数比较少的情况;
2-删除缺失值;
3-用平均值来代替缺失值;
4-用统计模型计算出来的数据来代替缺失值。
如何定位缺失值:通过Home -Filter对数据设置筛选,在下拉菜单里的筛选条件里选择“blank”,从而筛选出空白内容的缺失值。
表1“购买商品”数据 - 除了property这1列的统计数目为29828,其他6列的统计数目均为29972;所以property这1列存在缺失值。因为本次分析要解决的业务问题不涉及到property这1列,所以没有对property这1列的缺失值进行处理。
表2“婴儿信息表” - 3列的统计数目均为954,所以这个数据集不存在缺失值问题。
5)一致化处理:一致化是指数据有统一的命名。
可以对数据进行拆分从而实现命名的统一。
首先对需要拆分的那列数据进行复制;其次选中要拆分的数据,在Excel中Data - Text to Columns - 在跳出的对话框里选择Delimited - 选择要拆分的delimiter - finish完成拆分。
本次分析的这2个数据集都有着统一的命名,可以直接使用数据的原命名。
表1“购买商品”数据中的day和表2“婴儿信息表”中的birthday都是假日期,需要变成真日期格式,以便可以进行计算。
操作如下:data - text to columns - fixed width - date - finish;通过该操作可以把日期变换为Y/M/D的格式。
6)数据排序:利用Excel中的函数功能来做得出数据的平均值或者是求和,从而对数据进行排序。
7)异常值处理:通过Excel的筛选功能来查看数据是否有错误。在下拉菜单中所列出的数据类型中,可以查看到是否有不正常的数值。
4. 数据分析第4步:构建模型
通过构建模型,从而获取业务指标。
1)运用描述性统计命令来观察数据的描述统计分析。
通过Excel里的数据分析功能,直接可以得到一系列的述统计分析数据;操作为:data - data analysis - 选择descriptive statistics。
例如,对表1“购买商品”数据中的”buy-amount“购买量这列的数据进行描述统计分析,可以得到不同商品在不同时间沟通数量的平均值、标准误差、中位数、众数、标准差、方差、峰度、偏度、值域、最小值、最大值、总和及统计数目等描述性统计数据。
2)建数据透视表
运用数据透视表分组求平均数、标准差、计数等多个指标。
利用透视表,提取每年的购买总量的图表。
利用透视表,提取每个商品类别的每年的购买总量。
3) 使用vlookup进行数据分析
使用vlookup函数,通过userid为桥梁,来查找表1“购买商品”数据中的day来匹配表2“婴儿信息表”中的birthday。
5. 数据分析第5步:数据可视化
1)从2012-2015年,每年的购买总量的图表。
从图表可以看出,从2012 到2014年淘宝婴幼儿用品的购买数量呈直线上升趋势,2014达到顶峰;但是从2015的销量却急剧下滑,销售数量甚至低于2012年的销量。
2)从2012-2015年,婴儿用品商品分类的销售数量趋势。
婴儿用品共分6大商品种类。从图表可以看出其中3大商品种类的销售数量较大,另外3大商品种类的销量较小;6大商品种类的销量趋势和淘宝婴幼儿用品的整体销量趋势一致,即从2012 到2014年淘宝婴幼儿用品的购买数量呈直线上升趋势,2014达到顶峰;但是从2015的销量却急剧下滑,销售数量甚至低于2012年的销量。