从电商开始,入门数据分析
时间:2023-03-15 22:38:01 | 来源:电子商务
时间:2023-03-15 22:38:01 来源:电子商务
听取老师的建议,从电商数据开始学习数据分析。
描述统计分析
一、四个常用指标
1.平均数2.四分位数下界(0%)—
下四分位数Q1(25%)—
中位数Q2(50%)—
上四分位数Q3(75%)—
上界(100%)
箱线图(from百度百科)四分位数的应用:
- 用于不同类别数据的比较
- 识别可能异常值,对异常值进行检查和处理
检查方法Tukey`s test最小估计值:Q1-k(Q3-Q1)最大估计值:Q3+k(Q3-Q1)k=1.5中度异常k=3极度异常处理方法:错误标记的数据,在数据分析前进行修正;被错误包含在数据集中的值,将异常值删除;反常值,正确被记录应该保留;
3.标准差=波动大小标准差的单位与原计算数值相同;标准差大小好坏与研究问题相关。
举例:NBA球员稳定性;股票波动大小。
4.标准分=距离平均值多少个标准差标准分=0,即数值等于平均值;标准分>0,即数值大于平均值;标准分<0,即数值小于平均值。
案例:质量管理
二、数据集信息
表1
user_id用户id
auction_id购买行为编号
cat_id商品种类id
cat1商品类别
property商品属性
buy_mount购买数量
day购买时间
表2
user_id用户id
birthday出生日期
gender性别 0男性1女性
三、需要统计信息
- 表1用户的购买频次,筛选是否有同一用户的重复购买行为,对同一用户的购买行为进行合并。
- 表1商品类别分类统计,统计所有类别的商品及购买量,得出商品类别购买量排序。
- 表1商品种类分类统计,统计所有的商品种类及购买量,得出商品种类购买量排序。与商品类别匹配。
- 表1购买数量的频次统计。
- 表1购买时间。转换成时间格式,并可以统计季节、季度时间及星期时间。
- 表2用户id和表1用户id进行匹配。
- 表1数据和表2数据进行购买时间婴儿年龄计算。
- 表2婴儿性别统计。
四、业务问题
- 用户喜欢在周几下单?一周的购买趋势是怎样的?(buy_mount购买数量 & day购买时间)
- 哪一个类别的商品销量最好?每个类别的商品中,不同种类的商品销量是怎样的?(cat_id商品种类id & cat1商品类别 & buy_mount购买数量)
- 不同季度每个类别商品的销量是怎样的?不同类别商品的季节波动大吗(cat_id商品种类id & cat1商品类别 & buy_mount购买数量 & day购买时间)
- 婴儿的年龄会影响到父母的购买行为吗?(birthday生日 & buy_mountg购买数量 & day购买日期)
- 男女婴儿各自偏好的商品类别是什么?ueser id用户ID & gender性别 & cat id商品类别 & buy mount购买数量)
- 用户单位时间内(例如一年)购买行为统计。购买最多的前百分之二十用户总共购买商品多少件,每个人的购买量是多少?剩下的百分之八十用户总共购买多少件,每个人的购买数量是多少?用来统计高价值用户(ueser id用户ID & buy mount购买数量)