电商行业数据剖析
时间:2023-03-15 20:38:01 | 来源:电子商务
时间:2023-03-15 20:38:01 来源:电子商务
随着互联网的快速发展和传播,很多电商平台沉淀并积累了大量的数据,看似杂乱无章的数据却隐藏的巨大的秘密,通过剖析电商数据,我们能了解平台运营的各项业务指标,明白平台运营的优势和存在的问题,更能深入细致地得到客户的消费习惯,从而更好地为平台运营指明方向。以下展示的是电商行业的各项业务指标。
图1——电商行业业务指标 我将以此作为对接下来的一份数据集进行问题分析,通过此数据集我们能挖掘出多少信息。我从Kaggle(Amazon Fine Food Reviews)中下载了一份关于亚马逊精美食品的数据集,该数据集包含了截至2012年10月的所有关于食品的568454条评论。大小为250MB。
图2所示为原始数据。我们可以看到每一条数据包含的内容信息有序号(id)、商品唯一对应的IP编号(ProductId)、用户唯一对于的IP编号(UserId)、用户的名称(ProfileName)、觉得该商品评论有用的用户数量(HelpfulnessNumerator)、参与评估该商品评论是否有用的用户数量(HelpfulnessDenominator)、商品的评分(1~5)(Score)、用户评论时间戳(Time)、用户评论的关键词(Summary)、用户的评论内容(Text)。
图2——亚马逊精美食品评论原始数据一、数据清洗1、选择子集,列名重命名
2、删除重复值
除A列外全选→数据→删除重复值
图3——删除重复值1图4——删除重复值2图5——删除重复值33、缺失值处理
本数据集无缺失值
4、时间戳的转换
时间戳是指从格林威治时间1970年01月01日08时00分00秒起至现在的总秒数。
时间戳转成正常日期的公式:
C1=(A1+8*3600)/86400+70*365+19
其中A1表示当时的1249488000时间戳数值
其中C1就是所需的日期格式,C1单元格属性改成日期格式就可以了。
图6——时间戳格式转换5、隐藏意义重复列
在此文件中,用户名称可以用用户ID唯一识别,可将用户名列隐藏;时间戳转换成正常日期格式后,将时间戳列隐藏
至此,数据清理工作告一段落,得到文件如下
图7——数据清洗后文件二、业务指标分析通过的得到的数据,我们对照电商行业业务指标,我们可以得到的指标有:会员复购率、新增访问数、SKU、买家评价数、好评率。有些客户是只买商品不做评价的,所以对于此数据集其中之一的缺陷是没有对应时间的所有用户,因此不能做非常准确的指标分析,只能通过参与评价的客户来近似的分析指标。
1、SKU、买家评价数SKU是商品及供应类指标,是指物理上不可分割的最小存货单位,俗话说就是指亚马逊平台包含多少种食品。通过使用数据透视表,将商品ID拖入行,计算其值,同时得出每件商品的评价数量,从此也近似可以看出商品的销量多少(倾向于评价越多,销量越高)。通过降序排序可看出销量从高到低排列。总共商品有74258件。
图8——SKU1图9——SKU22、好评率好评率指指某段时间内好评的买家数量与该时间段买家数量的比值,在此数据集中没有直观体现,我们通过整理用户评分,以用户满意度的形式表现出来:不满意(X<=2)、一般(2<X<=3)、基本满意(3<X<=4)、满意(4<X<=5)。
我们使用数据透视表,将商品ID拖入行中,将分数拖入值中,将值字段设置成平均值可得每件商品的平均得分,将得分进行降序排序。
图9——评分1图10——评分2在平均得分表中,通过引用vlookup将各商品的客户满意度显示出来。
图11——满意度1图12——满意度2通过满意度透视表,将客户满意度比例显示,平均满意度为73.05%。
图13——满意度3图14——满意度4我们将每一年的1~5分评分,以折线图的形式展现出来,可以看到评分为5分的比例比较稳定,但也呈现一定的下降趋势,所以需要结合更多的数据,来找出下降的原因,逐步解决以提升客户满意度。
图15——满意度53、会员复购率会员复购率指在统计期内产生两次及以上购买行为的会员占购买会员的比率。我们计算从1999年到2012年会员的复购率。
我们使用透视表,将用户ID拖入行和值中,得到每个客户在1999~2012年期间的购买次数,将购买次数进行降序排序。我们可以发现位于第一的客户在此期间发生过447次购买行为并评论,可能还不止(排除未评论的次数),在当时属于忠实粉丝。通过计算,总共有256059位客户产生评论,也即是参与了购买,其中重复评论(购买)的客户数为80662,复购率为31.50%(80662/256059)。
图16——复购率1图17——复购率2但是从1999~2012作为统计期,时间跨度太长,我们将复购率以年为统计期。在透视表中将评论时间拉入列中,得到客户每年的购买次数,通过计算的到每年的复购率。由于04年之前的客户评价数比较少,从几十到几百不等,参考价值比较小,也因电脑配置问题,为了提高分析效率,将04年及之前的数据做删除处理。由图17可看出,复购率逐年缓慢增长,在2011和2012年达到29%左右,后续有望持续增长。
图18——复购率34、新增访问数利用透视表,统计每一年的评论数,然后做成折线图,可以近似看成每年的新增客户数。可以看到客户在05年之前的绝对值增长比较缓慢,06年开始几乎呈现了指数型增长,2010-2011年增长百分比最多,切截止2012年,增长的趋势未放缓,说明网购平台的红利正在释放。
图19——客户增长数量