数据分析 - 从描述统计来分析电商数据
时间:2023-03-15 21:22:01 | 来源:电子商务
时间:2023-03-15 21:22:01 来源:电子商务
- 什么是描述统计:
描述统计是来描绘或总结观察量的基本情况的统计总称。描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。
描述数据的四个关键指标:平均值、四分位数、标准差、标准分。
1)平均值
平均值是用来表明资料中各观测值相对集中较多的中心位置,表示一组数据集中趋势的量数。 算数平均值的计算方法是数据中各观测值的总和除以观测值个数所得的商。
但是平均值经常容易出现陷阱,特别是其最高值与最低值差距巨大或者某个个案特别突出时,不能够代表这组数据的集中趋势。
2)四分位数
四分位数是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。
通过绘制箱线图,可以更直观得比较不同类别数据的整体情况。箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。
通过Turkey'test这个方法, 可以帮助识别出可能的异常值。以下公式用于计算出数据集中最小估计值和最大估计值。
最小估计值:Q1 - k(Q3-Q1)
最大估计值:Q3 + k(Q3-Q1)
可以根据不同的数据分析目对k取值。一般k=1.5,计算出的是中度异常的范围;K=3计算出的是极度异常的范围。
3)标准差
标准差用来描述数据波动的大小,即离散程度。
计算公式如下图:
4)标准分(z分数,标准化值)
标准分表示某个数值距离平均值多少个标准差。
如果某个数值的标准分等于零,那表示数值是等于平均值的,如果标准分大于零,那表示数值是大于平均值的,如果标准分小于零,那数值是小于平均值的。
标准分就是建立一个模型将两组数据放在同一个模型中进行比较。
标准分多用于质量管理中,通常用每百万次采样数的缺陷率来衡量。
以上知识点的总结:
2. 熟悉数据集:使用的是社群资料里的电商行业数据集,即淘宝和天猫婴儿用品的数据集。这个数据集包括2个CSV格式的数据。
表1是“购买商品”数据,共有7个变量,29971条数据信息。存储的数据类型,除了“property:商品属性”是字符类型外,其他6个都是数字类型。
其中这7个变量为:
user_id:用户id
auction_id:购买行为编号
cat_id:商品种类ID
cat1:商品属于哪个类别
property:商品属性
buy_mount:购买数量
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)
表2是“婴儿信息表”,共有3个变量,953条数据信息。存储的数据类型都是数字类型。
其中这3个变量为:
user_id:用户id
birthday:出生日期
gender:性别(0 男性;1 女性)
3. 你想从该数据集中得到哪些描述统计信息?分析商品种类中不同种类的商品所购买的数量,分别对商品种类的数量进行四分位分析并绘制出箱型图。
分析商品种类在不同时间段的购买数量,可以以月为单位,分析每个种类的商品在统计数据中购买的均值,每个月的标准差和标准分。
分析不同购买行为所对应的购买数量,及在不同时间段下购买行为的分布;分析对应的购买数量的平均值、四分位数及标准差。
通过对客户对象-婴儿的出生时间进行分析,从而分析婴儿年龄的平均值和四分位数;分析统计婴儿性别,从别得到婴儿性别的分布信息。
分析客户对象的购买数量和不同时间的购买的分布情况;分析购买数量的平均值及四分位数。
4. 你想从该数据集中分析哪几个业务问题?1)哪个种类的商品的销量最好和种类的商品的销量不好,从而对销量不同的产品制定不同的营销方式。
相关字段的使用:cat_id:商品种类ID和buy_mount:购买数量 。
2) 每一个种类的商品在不同时间段的销售分布,是否存在淡旺季情况,以及销售的趋势(上升或下降),从而找到造成销量高或低的原因,以便有目标性得促销。
相关字段的使用:cat_id:商品种类ID、buy_mount:购买数量和day:购买时间。
3)分析不同的购买行为对消费者进行购买的影响,从而找到消费者最经常使用的购买行为,从而更有针对性的进行营销。
相关字段的使用:auction_id:购买行为编号和buy_mount:购买数量 。
4)分析出不同年龄阶段和不同性别的婴儿的购买需求量的分布,从而分析出需求量最大的目标客户群;对于购买量相对小的客户群,可以作为潜在客户,考虑促销方式从而刺激其购买量。
相关字段的使用:user_id:用户id、birthday:出生日期、gender:性别和buy_mount:购买数量。