一、什么是描述统计分析(Descriptive Analysis)


概念:使用几个关键数据来描述整体的情况


描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。


Excel里的分析工具库里的数据分析可以实现描述性统计分析的功能。

描述性统计分析即是对数据源最初的认知,包括数据的集中趋势、分散程度以及频数分布等,了解了这些后才能去做进一步的分析。


二、常用指标


均值、中位数、众数体现了数据的集中趋势。

极差、方差、标准差体现了数据的离散程度。

偏度、峰度体现了数据的分布形状。


1、均值。均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。


2、中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此对极值缺乏敏感性。


3、众数:数据中出现次数最多的数字,即频数最大的数值。众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。


4、极差:=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。


5、四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。四分位数可以很容易地识别异常值。箱线图就是根据四分位数做的图。


四分位数的计算:

  • 下四分位数的位置:

1、计算n/4

2、如果结果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上数值的平均值

3、如果结果不为整数,则向上取整,所得结果为下四分位数的位置


  • 上四分位数的位置:

1、计算3n/4,

2、如果结果为整数,则上四分位数位于3n/4这个位置和下一个位置的中间,取这两个位置上数值的平均值

3、如果结果不为整数,则向上取整,所得结果为上四分位数的位置


eg、3 3 6 7 7 10 10 11 13 30

n=11, 11/4=2.75,不为整,向上取整3,则下四分位数是第3个数,即6;

3*11/4=8.25,也不为整,向上取整9,则上四分位是第9个数,即11


箱线图可以用来比较不同组别的数据。箱线图除了上下四分位数,还有上界(除异常点以外的最大值)、下界(除异常点以外的最小值)


6、方差和标准差。方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小,方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。由于标准差只能用于统一体系内的数据比较,如果要对不同体系的数据比较,就要引入标准分的概念。


7、标准分z:对数据进行标准化处理,又叫Z标准化,经过Z标准化处理后的数据符合正态分布(即均值为0,标准差为1)。标准分是对不同数据集的数据进行比较的量,可用来表示数据值在所在数据集内的相对排名 。标准分的意义是每个数值距离平均值有多少个标准差。


有数据集x1,x2,x3,其平均值为μ,标准差为σ,则其标准分z为:



8、峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正太分布更矮更胖,呈平阔峰分布。


9、偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。


还有一些其他的量,不仅在描述性统计分析中常见,在数据报告中也很常见,如


10、绝对数


11、相对数:倍数、成数、百分数


12、百分比


13、百分点:1个百分点=1%,是指变动的幅度


14、频数:绝对数,是一组数据中个别数据重复出现的次数


15、频率:相对数,次数与总次数的比。


16、比例:相对数,总体中各部分占全部的比,如:男生的比例是30:50


17、比率:相对数,不同类别的比,如男女比率俄日3:2


18、倍数:相对数,一个数除以另一个数所得的商,如A/B=C,那么A是B的C倍。


19、番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍


20、同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比


21、环比:相对数,指与前一个统计期进行比较,如今年5月与今年4月相比是环比


©著作权归作者所有:来自51CTO博客作者mb5fe18f5282239的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 在模仿中精进数据可视化06:常见抽象地图的制作
  2. 掌握pandas中的时序数据分组运算
  3. 在pandas中使用数据透视表
  4. 在模仿中精进数据可视化03:OD数据的特殊可视化方式
  5. 在模仿中精进数据可视化02:温室气体排放来源可视化
  6. 在模仿中精进数据可视化05:疫情期间市值增长top25公司
  7. Vaex :突破pandas,快速分析100GB大数据集
  8. 在模仿中精进数据可视化04:旧金山街道树木分布可视化
  9. 在pandas中利用hdf5高效存储数据

随机推荐

  1. Android XML解析学习——Sax方式(续)
  2. Android(安卓)studio断点调试(全在这里)
  3. Android Animation学习笔记
  4. Android在Eclipse环境下安装配置
  5. 了解Android
  6. Android webkit image的加载过程解析(二)
  7. Android官方技术文档翻译——Gradle 插件
  8. 获取Android的Java源代码并在Eclipse中关
  9. 当Google忙着忽悠Android的时候,各位别忘
  10. Android 中文API合集 chm版,电子书籍下载