分析的基础:平均和交叉的思路
本篇内容为数据分析入门方法系列的第3篇,平均和交叉的思路,有需要回顾前两篇方法的,传送门在这里:《分组分析法》《对比分析法》
本文大概 读完共需
1435 4
字分 钟
之前两篇内容提到了对比和分组,这都是实际工作中经常用到的,只是你没有把它好好总结出来,今天要分享的平均分析法和交叉分析法同样是工作中随处可见的分析方法,希望我们能学会并用好。
一、平均分析法
平均分析法顾名思义,就是用平均数来反映数据在某一特征下的水平,平均分析通常和对比分析结合在一起,从时间和空间多个角度衡量差异,找到其中的趋势和规律。
01 不得不提的平均数
平均数用来反映一组数据的集中趋势,表示平均的指标有算术平均数、几何平均数、中位数和众数。
算术平均数
最常用的一个平均数,也就是常说的均值、平均值,就是我们熟悉的那个求平均值的公式,所有的数值相加再除以总个数:
算术平均数受极值的影响较大,当数据集中出现极端值时,所得到的结果将会出现较大的偏差,如计算一个企业员工的平均收入,因为老板的收入太高了,导致平均值被拉高,出现了整体收入的平均值偏高的现象,我们经常说的工资收入被平均,就是这个道理。
在Excel里用AVERAGE()函数来计算
几何平均数
几何平均数在计算增长率、收益率等比率和指数进行平均时应用比较广泛,受极端值的影响较小,几何平均值是所有数值乘积开n次方根,在计算几何平均数的时候,不可以有0和负数,公式为:
在Excel里用GEOMEAN()函数来计算几何平均值
中位数
上面讲算术平均数的时候举了一个收入被平均的例子,如果因异常值的出现而无法用算术平均数来描述数据的话,那应该用什么指标来描述呢?对了,就是中位数和众数。
中位数是将数据按照从小到大的顺序排列,最中间的那个数据即为中位数。
中位数的寻找方法:
当数据个数为奇数时,中位数即最中间的数;当数据个数为偶数时,中位数为中间两个数的平均值。中位数不受极值影响,因此对极值缺乏敏感性。
在Excel里用MEDIAN()函数计算中位数
众数
众数是数据中出现次数最多的数字,即频数最大的数值。在一组数据中众数可能不止一个,众数不仅能用于数值型数据,还可用于非数值型数据,且不受极值影响。众数通常用来反映一组数据的一般水平,如某次考试中学生的集中水平、城镇居民的平均生活水平等。
在Excel里用MODE()函数来计算众数
02 平均分析法的应用
同一行业不同竞争产品之间同一平均指标的对比,可以用来比较事件的整体水平,下图所示为2018年淘宝、拼多多、唯品会人均单日使用次数和人均单日使用时长的对比。
(数据来源见图片右下角,,侵删)
如下某公司员工平均收入的例子
通过绘制收入分布直方图我们发现,收入在2000~4000的员工最多,与8203的平均值差距太大,这是因为收入在20000以上的几个异常值导致,因此不能用平均值来说明问题。
二、交叉分析法
01 交叉分析的意义
交叉分析就是将两项及多项指标进行交叉,从而找到变量之间的关系,发现数据的特征。如下图所示的一份某连锁店统计的商品销售的数据,原始数据表中有年、月、销售区域、销售数量和售价5个维度,可以进行两两组合,得到一些交叉的关系思路,年&销量,年&售价,区域&销量,区域&售价等等,如果每一个字段我们都进行两两交叉,就可以得到10个交叉关系,需要注意的是,这些交叉关系是要有实际意义的,如年和月的交叉,分析不出什么,也没有意义。
【年&销量】
通过对年和销量间的交叉,得到10年销量比09年高。
【区域&销量】
通过对区域和销量进行交叉分析,得到沈阳的销量最好,上海最差。
【3个维度交叉】
除了两两交叉,还可以多项交叉,如区域&销量&年之间的关系。
【多个维度交叉】
区域&销量&年份&售价四个维度的交叉关系
02 交叉分析的应用
下图所示的拼多多在不同时间维度上的月活,以及与淘宝、京东用户重合的比例进行分析,可以了解到不同时期与竞品的对比。
(数据来源见图片右下角,侵删)
更多相关文章
- 一道简约而不简单的算法题--数据流的中位数
- 004. 寻找两个正序数组的中位数 | Leetcode题解
- php 7-177之间能被7整除的总和的平均数
- mysql-求中位数方法
- 【Mysql】实现中位数计算
- 《算法导论的Java实现》 10 中位数和顺序统计学