电商公司数据分析
时间:2023-03-15 20:22:01 | 来源:电子商务
时间:2023-03-15 20:22:01 来源:电子商务
1. 数据获取
数据集来自kaggle
这是一个跨国数据集,包含2010年12月9日至2011年12月9日期间发生的所有交易,这些交易来自一家在英国注册的非店铺在线零售店。该公司主要销售各种适合特殊场合的礼品。公司的许多客户都是批发商。
数据集大小:4198764*8
数据集字段含义: InvoiceNo(发票号码), StockCode(货物代码),Description(货物描述), Quantity(数量), InvoiceDate(发票日期), UnitePrice(单价), CustomerID(客户ID),Country(客户所在国家)
2. 提出问题
1.客户行为:客户可以进行那些分类?哪些客户最具价值? 哪些客户最值得挽留?
2.订单维度:笔单价是多少,连带率是多少,笔单价与连带率的关系?
3.客户维度:客单价是多少,人均购买笔数是多少,客户的留存率怎么样?
4.商品维度:什么价位的商品销售额最高,什么价位的商品销量最高?
5.时间维度:销售额随时间的变化情况,是否有异常情况出现,出现的原因?
6.位置维度:订单主要来自哪些国家,哪些国家的平均客单价最高,哪些国家的用户黏性最强?
3. 数据清洗:
将数据导入EXCEL,删除重复项,去除完全相同的行。
以货物代码为主要关键字对数据进行排序,发现货物代码以字母开头的商品是样品、邮费、税费、坏账等,筛出这些数据另外存放。
以商品单价为主要关键字对数据进行排序,发现商品单价为零的数据是损坏的商品和商品包装袋等赠品,筛出这些数据另外存放。
以数量为主要关键字对数据进行排列,发现数量为负时,发票号码都以C开头,可推断出发票号码以C开头的订单都是取消的订单,筛出这些数据另外存放。
以客户ID为主要关键字对数据进行排列,当 客户ID为空时,商品单价旁边比非空的订单高,且数量都较小。客户来自EIRE和United Kingdom这两个国家,还有一部分客户国家未知。可推断出当客户ID为空时,订单非线上销售,筛出这些数据另外存放。
补充sumPrice列,=Quantity*UnitePrice,算出订单金额4. 数据分析与可视化:
4.1用户分级根据用户行为构建RFM模型, RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期交易行为、交易的总体频率以及交易金额三项指标来描述该客户的价值状况,依据这三项指标划分8类客户价值。
通过数据透视表,将客户ID设为列,销售额设为值,就可得到客户的交易金额。
通过数据透视表,将客户ID设为列,时间设为值,并将时间的值字段设为最大值,就可得到客户的最近一次交易日期,用DATEDIF函数算出时间间隔,我是设2011/12/10日为当前时间。
以发票号码、客户ID、时间三个选项,删除重复项。用countif函数计算出客户的消费次数。
设定1-5分对应的数值范围,通过vlookup函数匹配,算出R-score,F-score,M-score等列对应的分值,再算出各列的平均值,如果大于平均值,为1。小于平均值,为0。最后得出客户类型。
绘制关于客户类型的柱形图和饼图:
该平台的重要价值用户与流失用户占比都较大,需针对流失率高制定相应的措施。
4.2 销售情况的描述性统计4.2.1订单维度:
通过数据透视表,筛选出同一客户ID,不同时间下的的订单,汇总订单的金额及产品件数,但数据透视表的时间只能精确到月。点击更多表格,在原数据透视表的基础上进一步建立数据透视表。
算出笔单价(每笔订单的平均交易金额)和连带率(每笔订单平均购买的产品件数):
复制数据到新的工作表。用frequency函数算出小于等于D列值的单元格数量,再减去上一行的数量,可得出区间内的单元格数量。
点击数据分析,选择描述性统计,得到描述性统计数据。根据QUARTILE函数算出1/4分位数和3/4分位数。
统计区间(2010年12月1日-2011年12月9日)内共产生有效订单18310笔,笔单价为478.49英镑,连带率为281.67件,说明以批发性质的订单为主。订单交易金额和订单内商品数量,其均值都高于中位数,与Q3分位数相近。说明订单总体差异大,存在部分购买力极强的客户。
通过Power BI绘制订单交易金额的分布图:
部分订单交易金额过大,影响图表的可读性,筛去1000英镑及以上的订单:
订单金额集中在400英镑内,三个峰值分别为0-20英镑、110-220英镑、310-330英镑。其中300-320英镑的订单数量特别多。
通过Power BI绘制订单交易数量的分布图:
由于小部分离群点使得横坐标的区间过大,筛去2000件及以上的订单:
订单内的商品数量为长尾分布,大部分订单的商品数量在300件内,商品数量越多,订单数相对越少。
为了进一步探究订单交易金额与订单内商品数量的关系,绘制散点图:
由于小部分离群点影响图表的可读性,筛去订单金额大于8000,商品数量大于6000的部分:
总体来说订单交易金额与订单内商品件数是正相关的,商品数量越多,订单金额越大。不过,在商品件数接近0的时候,也有一部分高价订单。
4.2.2客户维度:
数据的处理方式与订单维度相似。通过数据透视表,对客户ID相同的订单进行汇总,得到汇总后的订单金额、商品数量、订单数量,并用描述性统计,得到描述性统计数据。根据QUARTILE函数算出1/4分位数和3/4分位数。
人均购买笔数为4笔,中位数为2笔,25%以上的客户仅下过一次单,并未留存。每位客户平均购买了1187件商品,甚至超过了Q3分位数,最多的客户购买了196915件;客单价为2049英镑,平均值同样超过了Q3分位数,说明客户的购买力存在较大差距,存在小部分的高消费用户拉高了人均数值。
观察客户消费金额的分布:
从柱形图图看,大部分用户的消费能力确实不高,高消费用户在图上几乎看不到。这也确实符合消费行为的行业规律。
筛去消费金额大于2500的客户:
客户消费金额的分布呈现双峰长尾形态,两个峰值分别为110-260英镑,290-420英镑。
绘制客户消费金额与商品数量的散点图:
筛去金额大于20000,商品数量大于10000的订单:
客户群体比较健康,而且规律性比订单维度更强,同时拥有购买商品数多和消费能力强的用户。客户的消费金额与购买的商品数量呈正相关,客户购买的商品数越多,消费金额相对就越高。
4.2.3商品维度:
通过数据透视表,对货号相同的订单进行汇总,得到汇总后的订单金额和商品数量,商品单价=订单金额/商品数量。并用描述性统计,得到描述性统计数据。根据QUARTILE函数算出1/4分位数和3/4分位数。
平均单价为3.15英镑,中位数为1.65英镑,25%以上的商品单价不高于0.85英镑。75%以上的商品单价不高于3.75英镑。平均值接近Q3分位数,说明该网站的商品单价存在较大差距,以低于4英镑的低价商品为主,存在小部分的高价商品拉高了平均值。
绘制商品单价与商品销量的散点图,观察哪种价位的商品更受欢迎:
很明显,低价位的商品更受欢迎。
绘制商品单价与销售额的散点图:
绘制货号与销售额及单价的气泡图,
气泡大小代表销售额,气泡越大,销售额越高,气泡越小,销售额越低。颜色深浅代表商品单价,越偏青色,商品单价越低,越偏蓝色,商品单价越高。
可以看出较低价位的商品构成了销售额的主要部分,部分单价稍高的商品,虽然销售的商品数量不及低价位商品,但凭借单价,也为平台销售额做了不小贡献。平台可以重点监测分析气泡图中面积较大的商品,以提高平台的总销售额。
4.2.4时间维度:
用数据透视表得到不同日期的销售额、商品销量与订单量
用Power BI绘制销售情况随月份变化的柱形图:
可知9月、10月、11月(注:12月只有9天)为平台的销售旺季。考虑该平台主营礼品,可能受节日影响较大。欧洲重视的万圣节(11月1日)、圣诞节(12月25日)、元旦(1月1日)以及英国主要的购物节boxing day(12月26日)、以及逐渐成为全球购物节的黑色星期五(11月第4个星期五)都在年末与图中的趋势能够相呼应。
用Power BI绘制销售情况随日期变化的折线图:
可看出销售额与销量正相关,出现两个销售额与与销量同时较高的峰值,1月18日与12月9日。筛选出这两日的数据查看情况,发现都有一笔大订单。
用Power BI绘制销售情况在一日内随时间节点变化的折线图:
可知9点-11点,11:40-15点为平台的购物高峰期,需加强这段时间对平台的维护。
若有商品上新或活动,也可选在该时间段内。
4.2.5位置维度:
对国家进行分组,增加AvgPrice列(该国家订单内的平均商品价格),人均订单数列,人均交易额列,得到下表
可知绝大部分客户和订单都来自英国本土,主要境外收入来源也多为英国周边国家。值得注意的是,Netherlands和EIRE这两个国家,虽然客户数少,但客户的购买力及客户的黏性都非常强,需做好用户的维护。后续平台若想增加境外销售额,可以以这两个国家为主要目标。也可对人均交易额高的国家的客户进行问卷调查,了解他们接触平台的途径及购物中遇到的问题,后期针对性宣传和改进,以提高平台在境外的销售额。
5. 总结
5.1用户分级 根据用户行为构建RFM模型,得到8种客户类型,对不同类型的用户采用不同的维护手段。
5.2 订单维度笔单价为478.49英镑,连带率为281.67件,说明以批发性质的订单为主。订单总体差异大,存在部分购买力极强的客户。订单内的商品数量为长尾分布,大部分订单的商品数量在300件内,商品数量越多,订单数相对越少。总体来说订单交易金额与订单内商品件数是正相关的,订单商品数量越多,订单金额越大。
5.3 客户维度人均购买笔数为4笔,客单价为2049英镑,客户的平均购买商品数为1187件。25%以上的客户仅下过一次单,并未留存,说明平台的留存率不高,需想办法提高留存。客户的购买力存在较大差距,大部分用户的消费能力不高,小部分的高消费用户拉高了人均数值。客户的消费金额与购买的商品数量呈正相关,客户购买的商品数越多,消费金额相对就越高。
5.4 商品维度:较低价位的商品比较受欢迎。
5.5 时间维度:9月、10月、11月(注:12月只有9天)为平台的销售旺季。考虑该平台主营礼品,可能受节日影响较大。如欧洲重视的万圣节(11月1日)、圣诞节(12月25日)、元旦(1月1日),英国主要的购物节boxing day(12月26日,以及逐渐成为全球购物节的黑色星期五(11月第4个星期五)等。
9点-11点,11:40-15点为平台的购物高峰期,需加强这段时间对平台的维护。若有商品上新或活动,也可选在该时间段内。
5.6 区域维度:绝大部分客户和订单都来自英国本土。英国境外的国家,虽然客户数较少,但大部分国家的客户都有较大潜力。如Netherlands和EIRE这两个国家,虽然客户数少,但客户的购买力及客户的黏性都非常强,需做好客户的维护。还有Australia、Singapore、Japan、Sweden这些国家,客户的购买力都较强。可以对这些国家的客户进行问卷调查,了解他们接触平台的途径及购物中遇到的问题,后期针对性宣传和改进,以提高平台在境外的销售额。