先举几个“生活欺骗了你”的例子,再来说说本节标题:可以用统计模型来做决策吗?

统计关系并不等于因果关系


彩票悖论

首先根据假设检验,如果原假设概率非常小,就可以拒绝原假设。假设0.0001就是一个非常小的概率,组织一次公正的10000张彩票抽奖活动,按照之前的假设,1号彩票中奖的概率是0.0001,是要拒绝的,依次类推,我们可以拒绝所有的彩票,那么就没有彩票可中奖,但现实情况是总会有中奖的彩票,这是统计和逻辑不相符的一个例子。



无票入场者悖论

假设在一个有1000个座位的音乐厅举办一场音乐会,主办单位只售出了499张票,但当音乐会开始的时候,1000个坐席却都坐满了,这时主办单位有权向每个人收票钱,因为每个人无票入场的概率都是50.1,这样音乐厅虽然只有1000个座位,却将会有1499张门票的收入,但实际情况并非如此。



生日悖论

先来看一个问题:如果一个班里有23个同学,那么他们当中至少有两个人生日相同的概率是多少?


按照常识我们会觉得这个概率应该挺小的,毕竟一年365天,23个人撞期,还是挺小的,然而结果却是50%,也就是说有50%的概率这23个人中有两个人生日相同(具体怎么算的大家如果有兴趣可以自行百度),这里的50%到底是什么意思呢,是说只要是一个班里有23个及以上的学生,就一定有一半的概率两个人同一天生日吗?来,请回看我们这一节的标题:统计关系并不等于因果关系,这句话很重要,理解它更重要。


上面3个例子说明了以概率为依据做决策是不合逻辑的,然而逻辑和统计本身却是大不相同,在逻辑上,一个命题只有对和错两种划分,而在统计上,却可以说成对的概率有50%,错的概率为20%,就是这一点不确定性造就了以逻辑推理和统计为基础所得决策上的不一致,或者说矛盾,这就是统计关系不等于因果关系。

 

说到这,想到我爸妈经常会给我微信转发一些“震惊,XX吃了会得癌症”类似的文章(详细各位的父母也干过这种事吧),很多这样的文章都是用了统计关系等于因果关系的谬论来误导人,因为统计了得肺癌的人中80%都吸烟(假设),所以吸烟就一定会得肺癌,不能这样下结论的吧。


被统计蒙蔽的双眼


辛普森悖论

指当我们对两个变量进行分组研究时,在分组中都占优势的一方,在总评中反而成为失势的一方。比较著名的当属1973年加利福尼亚大学伯克利分校性别歧视的例子,男生录取率为44%,女生录取率为35%,根据这个数据有人就觉得该校有性别歧视的倾向,但如果每个院系分开来看录取率的话,可以发现,A B D F四个院女生的录取率都高于男生。这个悖论告诉我们一个简单的统计数字不能完全描述其背后的复杂意义,和我们平时熟知的描述性统计分析有点矛盾哦,可以好好思索一下。


伯克森悖论

伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。如假设某学生的文化成绩高那么他的体育成绩就不好,体育越好,文化成绩就越差,这好像也成为了我们平时的一个认知,班上的尖子生好像体育成绩都不怎么好,这种现象是怎么出现的呢?


假设学生要参加两种类型的考试,即文化和体育课,其中任何一种类型的考试达90分以上就可以毕业,那么毕业的学生要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。通常情况下正常人只需要选择一种类型的考试努力发挥到极致就好了,另一个没关系对吧,因此会呈现出学生的文化成绩和体育成绩是负相关的关系。


伯克森悖论还可以用来解释为什么很多人都存在帅哥都是渣男的印象,还有颜值超高的小鲜肉演员演技不忍直视,这些现象。


你以为的不一定是你以为的


赌徒谬论

赌徒谬论是指,相信一个结果已经发生了,那么再发生的机会就会很低。比如一个赌徒在打赌硬币是正面朝上或是背面朝上时的情景,前面5次的结果都是正面朝上,那么下一次他觉得反面朝上的概率会更大,这就是赌徒谬论,为什么说是谬论呢,因为高中的时候我们就学过扔硬币这个问题的概率,每扔一次一枚硬币是一个独立的事件,正面朝上和反面朝上的概率相同都是0.5,不受前面扔了多少次的影响,也就是说虽然前面5次都是正常朝上,下一次仍是正面朝上的概率也还是0.5。

 

聊到这,可能有些人会不理解了,或者脑海里依稀记得好像老师讲过,扔一枚硬币扔个1000次,正面朝上和反面朝上的次数都是接近一半的呀,能想到这里的同学,恭喜你,已经入门了,确实如此,但请看清楚前提:扔1000次,这就是大数定理,当我们大量重复某一相同实验时,最后的结果会稳定在某一数值附近,但把大量重复事件的规律运用在少数的事情上就错了。



幸存者偏差

指的是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息。在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼,其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航;而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航,在这个飞机问题中,只统计到了幸存下来的飞机,以此下结论,是不正确的。

 

现实生活中也有很多幸存者偏差的案例,比如感觉周围都是本科以上的人,而实际上中国具备本科以上学历的人,只占总人口的3%。还有为什么感觉知乎上应届生人人都是月薪过万,因为你看到的都是月薪过万的人在答题,月薪低于1万的都处于沉默状态。


所以到底能不能用统计模型来做决策?请先前往另一个问题:人工智能能代替人吗?那么统计模型能用来做决策吗?相信答案已经揭晓。


©著作权归作者所有:来自51CTO博客作者mb5fe18f5282239的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 【春节特辑】弹珠抽奖游戏概率
  2. python模拟多次采样通过低概率事件多次重复实验趋近必然事件

随机推荐

  1. Android 网络框架学习之Retrofit
  2. 红茶一杯话Binder(传输机制篇_下)
  3. Linux(Android):如何禁用Intel DPST(显示节电
  4. 【原创】安卓程序员的大革命,Cocovr框架库
  5. Android开发中MinSDK与TargetSDK不在同一
  6. android项目 之 记事本(14) ----- 手势缩放
  7. 使用RecyclerView的AppBarLayout可以在不
  8. 更新后-崩溃com.google.android.gms:play
  9. Android 进阶:Fragment 源码深入理解
  10. 显示操作栏和向上导航 - Android