什么是相关性

百度百科给的解释是:两个变量的关联程度

或者多个变量,或者变量与变量之间吧的关联程度,都可以,就是说A和B之间肯定存在着某种关系,确定的关系我们用函数就可以描述出来了,而这种不稳定、不确定、不精确变化的关系我们就称之为相关关系。

比如不久前的新闻,说深圳离婚都要排号了,然后我们发现哈,越是大城市,人们的离婚率就越高,这就反映了城市化水平和离婚率之间的一个相关关系。

这是生活中的例子,工作中也很常见啊,如果一个指标和另一个指标是一起变化的,说明它们是相关的,而如果是一个指标先变化从而导致了另一个指标的变化,说明它们是有因果性的,什么是因果性,请接着往下看。

相关和因果的区别

两个变量之间存在相关关系,并不意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。

再深入理解一下,相关性是数学关系,而因果性是逻辑关系

还是城市化水平和离婚率的例子,只能说明城市化的水平越高的同时,离婚率也增加了(相关),但不能说是因为城市化水平高,所以导致人们离婚(因果),因为这中间还有很多因素,城市化水平只是其中的一个。

在知乎上看到一个例子也可以来说一下,火灾现场,救护车的数量与死亡人数呈正相关,这可能确是实情,但我们不能说是因为派去的救护车多了导致死亡人数的增加,更不能因此作出通过减少救护车的数量来降低死亡人数的结论。

《精益数据分析》这本书里有提到:发现相关性可以帮助你预测未来,而发现因果性意外着你可以改变未来。相关性已经很好了,但因果性更佳,但很多时候,我们只能发现相关性,但应永不停止寻找因果性。

另外说一点,蝴蝶效应,是相关性还是因果性呢?大家可以评论区补充。

为什么要做相关性分析

为什么要进行相关性分析,如果你认真阅读的话,相信你已经知道答案了,前两段刚说完:相关性可以预测未来

在判断两个变量是否相关的时候,会画出散点图,其中与数据点拟合程度最高的线称为最佳拟合线,通过这条线可以用来预测数值。

如何进行相关性分析

相关关系有很多种分类,根据变量间相互关系的形式可以分为线性相关和非线性相关,通常比较常用的是线性相关,这里我们也只讨论线性相关

相关系数

比较常用的线性相关分析,用来衡量它的指标是线性相关系数,又叫皮尔逊相关系数,通常用r表示,取值范围是[-1,1],这里要注意的是在什么取整范围内时强相关,什么又是弱相关,但这也只是数学意义,在实际工作中也需要结合业务去判断。

散点图

散点图是将两个变量可视化观察其关系的最好呈现方式。通过散点图我们可以清晰地看出来到底是正相关还是负相关

函数方法

在Excel中,可以用CORREL函数来计算相关系数,同时还可以用数据——数据分析——相关系数,这个功能来进行相关分析。在之前写的文章里有详细的运用说明:
用Excel做相关性分析


©著作权归作者所有:来自51CTO博客作者mb5fe18f5282239的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 醒醒!Python已经支持中文变量名啦!
  2. Python 为什么只需一条语句“a,b=b,a”,就能直接交换两个变量?
  3. 利用Excel学习Python:变量
  4. 用Excel做相关性分析
  5. 教你预测北京雾霾,基于keras LSTMs的多变量时间序列预测
  6. Python进阶:如何将字符串常量转为变量?
  7. Ansible 之 外部变量文件调用
  8. 动画:「变量提升」引发的一场"血"案 !
  9. PHP 超全局变量之$_FILES详解

随机推荐

  1. devc不能编译运行怎么办
  2. c语言自学要多久?
  3. c语言中的注释符号是什么
  4. c语言的标识符允许使用关键字吗?
  5. c语言函数类型有几种
  6. c语言输出语句是什么
  7. 输入一个字符,如何判断是字母,数字还是特
  8. asp.net是什么?
  9. C语言怎么输入十个数输出最大值
  10. %lf在c语言中表示什么