本篇内容为数据分析入门方法的第二篇,第一篇对比分析传送门在这里。


分组分析是将总体数据按照某一特征性质划分成不同的部分和类型进行研究,从而深入分析其内在规律。

 

一、为什么要分组?

对于大量的数据,如果不进行分组是很难发现其中规律,找到不同组别之间的关系,从而更好地对比,如下图的人口分布图,如果不对人口的年龄段进行分组,是没法进行分析的。

(图片来源:中国统计局)

 

二、文本数据的分组分析

文本数据即非数值型数据,对文本型数据进行分组可以说明事物的特征,如对性别、教育水平等指标进行分组。


(图片来自中国统计局-国家数据)

 

三、数值型数据的分组分析

01 指令型分组

对于一组数据,有依据地划分好范围的分组方式,是指令型的分组,如个人所得税的税率计算表就是把工资划分为几个规定的区间。


02 组距式分组

不指定分组区间,同时数据量又较大时,可以使用组距的方法进行分组,就是将数据按照组数与组距划分为若干区间,其实和做直方图是一样的。

  • 组数:统计数据的时候,把数据按照不同的范围划分为多少组的个数是组数。组数具体取值多少,可以人为地依据数据本身分布的特点进行限定。分组数不宜过多或过少,一般在5~12个为宜。

  • 组距:一个组中最大值与最小值的差为组距。组距的确定方法:(最大值-最小值)/组数

 

步骤:

Step1:计算一组数据的组数和组距

我们要算出这组数据的个数,最大值、最小值、平均值、极差(最大值-最小值)、组数和组距。相应的公式如下图所示。

这里提供另外一种直接生成数据描述性统计分析的值的方法,Excel——数据分析 工具库——描述统计 分析工具,直接生成关于一组数据的“描述统计”分析工具用于生成数据源区域中数据的单变量统计分析报表,组数和组距还是要手动公式输入,这里的描述性统计分析只是用来提供有关数据趋中性和易变性的信息。

 

如下图所示,输入区域为A例,也就是数据源一列,汇总统计在F列,可以发现汇总统计的和我们公式算的结果是一致的。

 

Step2:分组

然后进行分组,第一组下限值要比最小值小一点,第一组上限值为第一组下限值+组距,如下图


分组完成后求每组的频数,可以用公式FREQUENCY,选中J2到J14单元格,输入下图公式,再按“Ctrl+Shift+Enter”组合键,即可求出每个分组的频数。


还有一种方法不用输公式,可以直接得到频数,选择【数据分析】——【工具库】——直方图,输入区域是生成的随机数,接收区域是分组。


输入区域是数据源一列,接受区域是分组一列。

可以得到如下图所示的频数分布表和直方图,可以看出和我们公式算的频数一致。


 Step3:绘制图直方图

设置数据系列格式,将间隙宽度调小。

后微调把图表美化一下。

 

四、用数据透视表分组

这是一组每天销售额和销售数量的统计表,可以看出日期一列的时间跨度非常大。我想统计每个季度、每年的量,可以用数据透视表来实现。

 

【插入】——【数据透视表】,把日期拖到行标签,把销售额拖到值区域,汇总方式选择求和。


点开年前面的+号,还可以显示每季度的统计数据。

 

不想让它们分组了怎么办,右键【取消组合】,就回到原始的状态了。

 

 又想组合了怎么办?还是右键【组合】,可以选择想要组合的方式,这里我们按年和季度进行组合,就又回到了最初数据透视表的状态了,还可以自定义组合的数据。主要是让大家知道数据透视表里组合功能的使用。


这个系列会写一些入门级的分析方法,工具的运用都大同小异,思维的不同决定个体的差异,希望大家能get到其中的奥秘。


©著作权归作者所有:来自51CTO博客作者mb5fe18f5282239的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 数据对比分析法,看这篇就够了!
  2. 超级菜鸟怎么学习数据分析
  3. JavaScript数据结构(4):树
  4. 用Excel做数据地图
  5. Excel数据处理(缺失值/重复值/异常值/拆分)
  6. 学了那么多公式,却依旧用不好Excel(实例讲解)
  7. JavaScript 数据结构(2-2):栈与队列-队列篇
  8. 只会环比下降3%的数据分析师还有救吗?
  9. JavaScript 数据结构(2-1):栈与队列-栈篇

随机推荐

  1. flask示例
  2. C#基础入门第十二天(面向对象多态,File操作
  3. JavaWeb-LayUI框架的介绍与使用方式(前端
  4. 服务器Tomcat,你会安装了吗?
  5. 聊一聊我们应该如何有效学习
  6. 熔断器 Hystrix 源码解析 —— 命令执行(
  7. 数据库分库分表中间件 Sharding-JDBC 源
  8. 【招聘】杭州阿里招高级前端
  9. 【招聘】上海携程门票业务招中高级前端
  10. 分布式消息队列 RocketMQ 源码分析 ——