以电商数据为例进行数据分析
时间:2023-03-15 20:04:01 | 来源:电子商务
时间:2023-03-15 20:04:01 来源:电子商务
一、明确问题
我们还是以之前的数据集,包括淘宝和天猫购买商品的文件来开始进行数据分析。试图解决销售畅销的品种是哪些,不同的时间会有什么影响,销售不同类别商品的占比,婴儿用品关于不同年龄段的分布,性别因素是否会影响等。
二、理解数据
数据来源
阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45数据集包括2个excel文件,表1淘宝购买商品和表2天猫婴儿信息的数据来描述。
A:表1购买商品一共有29971条记录,7个字段:
user_id:用户id
auction_id:物品编号(item_id)
cat_id: 商品种类ID(商品二级分类,表示商品属于哪个类别)
cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)
(cat1和cat_id分别是商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)
property:商品属性(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)
buy_mount:购买数量
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)
B:表2婴儿信息表一共有953条记录,3个字段:
user_id:用户id
birthday:出生日期
gender:性别(0女性;1男性;2未知的性别)
三、数据清洗
数据清洗大致分为7步,我们通过反复的清洗来梳理出需要分析指标的数据,为之后的数据指标分析打下坚实基础。在开始进行数据清洗时,我们可以复制原始数据工作表保留原始数据并重命名“清洗”工作表进行数据清洗操作。
3.1选择子集
选择子集是我们需要选择感兴趣的或者相关分析需要的列,其他列可以进行隐藏。
表1中“property”列是商品属性,包括大小,可以是尺码、毫升等数字,还可以指品牌等一切可以描述商品特征。在进行更细致的对于某个特定商品属性分析时会用到,这里暂时不需要可以隐藏。
在开始-格式-可见性下有隐藏和取消隐藏的选项,可以进行行或者列的取消和隐藏。
3.2列名重命名
由于表1表2中的列名均为英文,为了方便交流和展示,将列名全部修改为中文。双击列名即可进行修改。
3.3删除重复值
全选表格在数据-删除重复值中选择
在表1表2中均为发现重复值。
3.4缺失值处理
表1的单列计数均为29972,表2的单列计数均为954,没有缺失值需要处理,说明获取的数据信息比较完整。我们可以通过条件定位来快速定位缺失值进行操作。
3.5一致化处理
适合用于一个单元格里有多个数据的情况,需要进行分列操作。分列会覆盖原有的单元格,我们需要先复制到表格最后进行操作。此例里只有表1中“property:商品属性”这一列有多个数据,因不需要在此不做具体操作。操作在数据-分列进行选择。
在需要查找和字符串截取时需要用到:find查找, left、right、mid关于字符串所在单元格位置,和len截取函数。
3.6数据排序
通过需要的不同指标来对数据进行升序或者降序的排列,方便比较。在开始-排序和筛选中操作。我们对表1中购买数量进行降序排列可以直观的看到购买数量的较多的数据。
3.7异常值处理
我们通过对表格的不同操作,可能会出现异常值,需要用到数据透视表功能,包括:数据分组、应用函数和组合结果。
四、数据分析
4.1 商品种类和时间的关系
调整日期格式,-数据-分列-第三步日期YMD,如还需要调整设置单元格格式-自定义为“yyyy/m/d”。
根据数据透视表操作,通过不同年度商品一级商品种类的购买量,来找到畅销商品的种类,在一级种类里销量前三的品类依次为:“28”“50014815”“50014815”,分别占比为:“37.44%”“25.92%”“24.65%”。此三类产品为畅销产品占总体的近88%。关于年度增长趋势,2012年数据为下半年的6个月,2015年为1、2月份不是整年的数据,只能进行同时间段的数据比较。13-14年“50014815”“50014815”这两种商品的增长比较快,具体各种类的子类可以通过同样方式加入二级种类和时间加入季度来分析,可以进行更精细的商品存货订单的调整。
4.2母婴商品和性别的关系
通过共事-插入函数-vlookup来查找出母婴用品的商品种类、购买数量和购买时间三项。分别将数字和性别进行替换:0女性;1男性;2未知。
根据数据透视表操作,得到性别和各类婴儿商品购买的关系,婴儿用品畅销的种类是“50014815”“50008168”“28”,一共占据80%的数量。其中女性婴儿用品的购买占比60.69%远超过男性婴儿的36.44%,近乎2倍的关系。但是此处没有考虑其他的因素,以及只有952条数据,数量比较少,需要其他因素对比进一步分析。
4.3母婴商品和年龄的关系
使用datedif公式通过购买时间和出生日期来计算出婴儿年龄。有一个潜规则:第一个参数(起始日期)必须小于第二个参数(结束日期),否则就会返回#NUM。我们替换为“未出生”。有一个年龄28的异常数据,只有一条数据可以进行删除。
根据数据透视表操作,得到年龄和各类婴儿商品购买的关系。从未出生-3岁间这四个阶段的购买量比较大占82.72%,其中0岁的婴儿占比最大35.66%,其他依次为1岁占21.51%、未出生占15.32%、2岁占10.32%。但是此处没有考虑其他的因素,以及只有952条数据,数量比较少,需要其他因素对比进一步分析。但是此处没有考虑其他的因素,以及只有952条数据,数量比较少,需要其他因素对比进一步分析。
总结
我们通过数据集商品购买信息表和婴儿信息表为例,通过明确问题、理解数据、数据清洗的步骤进行了数据分析。并且梳理了数据清洗的7个步骤。