电商平台销售数据分析初探
时间:2023-03-16 01:16:01 | 来源:电子商务
时间:2023-03-16 01:16:01 来源:电子商务
一,学习统计分析的意义
在生活中统计学无处不在,每件事、每个人似乎都可以用统计数字来加以说明。特别是进入大数据时代以后,统计学更是成为炙手可热的学问,它可以帮我们解决很多重要的社会问题,并对“黑天鹅”事件和未来做出预测。
了解统计学知识,能够帮助我们过好每一天的生活。在大数据时代,掌握统计学知识是我们能读懂、听懂、看懂一切事实真相的基础。统计学是一门充满乐趣且与我们的生活息息相关的学科。学习统计学是一件有意义的事,我喜欢统计学。
二、描述统计分析
描述性统计是指将调查样本中包含的大量数据资料进行整理、概况和计算。是推断性统计的基础。
描述统计分析的内容:描述性统计是以揭示数据分布特性的方式汇总并表达定量数据的方法。主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。特征是表示定量数据,并揭示数据分布的特征。作用是提供了一种概括和表征数据的有效且相对简便的方法。
二、常用指标
均值、中位数、众数体现了数据的集中趋势。
全距、方差、标准差、四分位数体现了数据的分散性与变异性。
偏度、峰度表示了测量数据与正态分布偏离的情况。
1、均值。以前学过的平均数,容易受到异常值的影响,当异常值是较大值时,数据会向右倾斜。是较小则值时,数据会向左倾斜。
2、中位数。将一组数据按升序排列,然后取出中间值。总数是奇数的去中间的值,是偶数的去中间两个数的平均值。中位数小于均值时,数据向右倾斜。中位数大于均值时,数据向左倾斜。中位数不受极值影响,因此对异常值缺乏敏感性。
3、众数。一批数字中最常见的数值,即频数最大的数值。
4、四分位数。将数据按升序排列,然后分为四个相等的数据块,每个数据块包含四分之一原有数据。
优点:从整体描述数据集的分布状态
缺点:无法分析数据集的波动大小
求四分位数:(1)求出中位数Q2;(2)求下四分位数Q1,上四分位数Q3;
四分位距 = 上四分位数-下四分位数
(2)识别出可能的异常值;
最小估计值:Q1-k(Q3-Q1)
最大估计值:Q3-k(Q3-Q1)
k=1.5 中度异常
k=3极度异常
k为四分位距的倍数
5、方差与标准差。表示数据的波动大小,方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差小,表示数据集比较集中,波动性小;方差大,表示数据集比较分散,波动性大。由于标准差只能用于统一体系内的数据比较,如果要对不同体系的数据比较,就要引入标准分的概念。
6、标准分:表示数值距离平均值多少个标准差
如果一个数值在距离均值1个标准差的范围内,数值的标准分在-1到1之间。
如果一个数值在距离均值2个标准差的范围内,数值的标准分在-2到2之间。
四,数据集分析
1,熟悉数据集
这是阿里巴巴网站中的两个excel文件:
本站 - 安全中心
#表1购买商品的字段
user_id:用户id
auction_id:物品编号
cat_id: 商品种类ID(商品二级分类)
cat1: 商品种类ID(商品一级分类)
property:商品属性
buy_mount:购买数量
day:购买时间
#表2婴儿信息字段
user_id:用户id
birthday:出生日期
gender:性别
2,从这个数据集中可以分析下面的问题:
1、该店铺最受欢迎商品:使用统计功能,对auction_id:物品编号、cat_id: 商品种类ID(商品二级分类)、cat1: 商品种类ID(商品一级分类)、property:商品属性进行分析;
2、各品类的复购率、复购周期?频繁复购的人和低复购甚至不复购的人,过往购买的品类属性是否存在显著性差异?
3、消费者偏好购买数量:字段购买数量;
4、消费者子女性别、年龄比例:字段性别、字段出生日期;
5、消费者子女性别、年龄对商品分类、属性的影响:字段商品分类、字段商品属性、字段性别、字段出生日期;
6、不同时间(季节、周日、假日、促销节点)对品类销量的影响?哪些品类受季节影响较大?各品类的销量高峰期集中在哪些节点?