电商母婴数据分析
时间:2023-03-26 04:08:01 | 来源:电子商务
时间:2023-03-26 04:08:01 来源:电子商务
上一篇文章我们通过对描述统计分析的学习对电商母婴数据进行了初步的了解,那么如何通过Excel进行数据分析来制定公司下一步的销售计划呢?其实我们可以通过以下5个步骤进行。
①
明确目标:基于业务出发,明确自己最终想要获取的信息是什么。
②
理解数据:采集数据、数据信息、对字段进行理解 。
③
数据清洗:在理解数据的基础上我们要进行基础的数据预清洗,把不需要的字段隐藏,对列名进行处理并删除重复值,缺失值处理,一致化处理,数据排序,异常值处理。
④
数据分析:描述统计、数据透视表、数据分组、函数的应用、组合结果。
⑤
数据可视化:为了让客户更直观的理解数据,可利用Tableau等工具对数据进行可视化处理。
接下来我们就可以按照上述步骤对上一篇文章中的母婴数据进行分析啦!
①
明确目标:2020已过大半,下半年淘宝京东会推出各种购物节活动,假设本公司为了使母婴产品都想以便有针对性上线各类打折活动:
a) 不同种类商品销量和时间的关系?b) 不同性别的宝宝对不同商品类别的需求是否有差异?理解数据:现在我们手头现有的数据如下
① 表一:购买商品
表一中共包含29971条,7个字段:user_id: 用户id;auction_id: 物品编号(item_id);cat_id: 商品种类ID(二级类); cat1:商品种类ID(一级类);property:商品属性;buy_mount: 购买数量;day: 购买时间。
② 表二:婴儿信息
表二中包含954条信息,3个字段:user_id: 用户id;birthday: 出生日期;gender:性别(0女性;1男性;2未知的性别)。可通过链接两个表格得知不同性别的婴儿对何种商品需求量更大。
② 数据清洗:a) 选择子集:我们需要表一、表二中需要的有效数据留下,其他做隐藏处理。表一(商品列表)中,我们选择将物品编号隐藏起来,图表二保留原状。
b) 列名重命名
c) 删除重复值:我们对用户ID进行了重复值删除,共发现27条个重复值;表二中未发现重复值。
d) 缺失值处理:总数29945,表一中商品属性字段中共缺失142条数据,表二中无数据缺失,由于缺失值较少,对整体结果的影响也较小,所以此时我们选择不做处理。
e) 一致化处理:经检查发现,我们只需要对表一表二日期进行一致化处理,处理结果如下(只展示表一部分数据):
f) 数据排序: 根据我们此次数据分析的目的,我们选择对表一中的购买数量进行降序排序。得出如下结果:
g) 异常值处理:将表二中的性别中2全部替换为未知,1替换为男,0替换为女4。通过VLOOKUP函数将表一表二链接起来并计算出用户年龄(运用DATEDIF函数,年龄中的-1代表未出生,0岁代表未达1岁的小宝宝。)处理后数据如下:
③ 数据分析/数据可视化(数据可视化将在下一章进行展示)a) 不同种类商品销量和时间的关系?这个问题我们可以通过建立一个透视表来解决,我们可以发现每年
11月份是母婴产品的销售旺季
b) 不同性别宝宝更喜欢哪些品类?通过建立数据透视表可以看出,男女宝宝对一类、二类产品的需求量还是有区别的。
以上就是通过使用Excel进行的初级母婴数据的分析,新手操作起来还是有点费劲,思维也不是太能跟上,仅供参考~ 下一篇文章我们将会看到如何用数据可视化的形式更直观的感受数据!下次见吧~~beybey~