淘宝电商数据分析
时间:2023-03-15 22:04:01 | 来源:电子商务
时间:2023-03-15 22:04:01 来源:电子商务
对某一淘宝商品购买信息进行数据分析,在进行数据清洗后,进入分析阶段,回答以下问题。
1.明确问题:
用户和购买量——筛选出店铺的忠实顾客?
本来是想通过多表关联查询,了解忠实顾客达到婴儿具体信息,可以针对性的推出产品,但是表2 婴儿信息的用户数量远少于表1 ,大多用户在表2中查询不到,实际操作中这个思路可以尝试。
购买时间和购买量有何关联——了解客户的购买习惯?
商家在14年的销售量最佳,2012年和2015年都不是完整的月份。
在数据段中,2013年和2014年具有完整的销售月份数据,商品销售量整体是上升的趋势,出现了两个峰值,分别在5月份和11月份,可能是顾客的需求增大或者商家的促销活动力度较大和产品推广明显,较其他月份,2月属于淡季。
婴儿出生日期和购买量之间的关系——了解产品面对的客户群体特征?
可以看出,2011年后出生的婴儿销售量占主要部分,前面交代了2015年的数据只有前面几个月,所以在此条分析中可以不考虑2015年的数据,在2011-2014年的销售量中,男婴的销售量均大于女婴的销售量。
婴儿性别和购买量之间的关系——了解产品面对的客户群体特征?
在现有数据中发现,男婴的销售量大于女婴的销售量
2. 理解数据:列名含义
表一购买商品包含的列名有:
User_id表示用户的账号,具有唯一性
Auction_id表示物品编号
Cat_id表示商品种类
Cat1表示商品属于哪个类别
Property表示商品属性
Buy_mount表示用户购买这件物品的数量
Day表示用户购买该物品的时间
表二婴儿信息包含的列名有:
User_id表示用户的账号,具有唯一性
Birthday表示婴儿的出生日期
Gender表示婴儿的性别:“1”代表女生,“0”代表男生
3.数据清洗:
选择子集:可隐藏不需要用到的列信息
列名重命名
删除重复值:数据选项下删除重复项
缺失值处理:统计缺失值:定位到空值,输入内容时可按Ctrl+Enter,其他空白单元格也会填充相同内容
一致化处理
数据排序
异常值处理
日期数字处理
4. 数据分析:
分组汇总 【数据透视表】
统计描述分析 【分析工具库】
多表关联查询 【vlookup】