哈喽大家好,我是可乐

周日参加了知乎的一个线下活动——快闪课堂
主题:数据会说谎吗?
主讲人:程毅南


为了避免遗忘,所以将内容整理并附带我自己的理解,和大家分享。

主要分享了如何收集到真实的用户数据用好这些数据

我们为什么需要数据

我们为什么需要数据,因为要决策,更准确地说,要科学、准确地决策,并解决实际问题。

什么是科学地搜集数据

  • 世界客观存在,但需要人去发现和认知

在这个大数据时代,每时每刻都在产生大量的数据,如何从这么多数据里发现有效数据并进行科学地决策,是我们重点关注的问题。

  • 数据是连接客观世界和主观认知的桥梁,但修桥是个技术活

数据客观地存在,人们对数据的解读各有千秋,就像一千个人的心中有一千个哈姆雷特一样,不同的人对同一份数据可能都会有不同的说法,后面会举例。

搜集数据有什么难处

获取数据不难,但是获取真实、有效的数据,确实没那么简单。比如:

  • 人的想法和感受很难丈量

一个简单的情侣交流问题,就可以知道人的想法和感受是很难丈量的,请看下面例子:

小茗同学:我爱你
可乐:你有多爱我


为什么我爱你很难回答,因为
  • 爱的程度无法用工具测量

  • 用得分或数字表达,都极易失真,缺乏信度

  • 爱的状态本身就不稳定,但是测量时的状态却很重要

  • 爱的感受可以对比参照(前女友,你妈),但…

  • 你可以用优美的情话来比喻,但这考验的就是语文能力,缺乏效度

测量不准有什么问题

  1. 造成决策失误
    举三个测量不准导致决策失误的栗子

  • 感情被骗

比如上面的 我爱你 的案例,对小茗同学是否爱可乐这件事情如果测量不准,很可能导致可乐遭受严重的情感诈骗事件。

  • 美国大选民调翻车

2016年特朗普当选,是美国民调的滑铁卢,2020年差点又翻车。

  • 对开放二胎的决策

开放二胎后,人口增量显著低于预期,中国适龄人群的生育意愿到底怎样,依然是一个有挑战的问题。

  1. 对世界产生认知偏差

测量准确到底有多难

举3个比较难以获取真实数据的例子

  1. 美国大选民调

对于美国大选的预测,大家一直以来都津津乐道,2016年,民调预测希拉里会赢得大选,结果我们都知道却是特朗普上台,今年虽然整体上民调显示拜登的支持率较高,但在一些摇摆州的预测上还是打了脸。

所以把数据测量准确这件事情还是很难的。当然对于民调这种问题,结果不准确更多地可能还是取样的偏差?

  1. 如何了解某种难以启齿的行为的***率

如家庭暴力、偷窃、出轨等难以启齿的行为,如何了解它们的***率?

实际报案的、被警察抓获的、被他人发现的来这只是一小部分人,或者你可以说是幸存者偏差,到底有多少人有过类似的行为?

我们可能会想到通过以下方式来获取:

  • 网络问卷调查。成本低,也无法核实用户身份,但也因此用户也就可以随意说谎

  • 入户调查、街头拦访。也会撒谎,或者不好意思坦白

  • 在居民家安装监控,排查所有转账数据。类似我们的数据埋点,可能效果好,但不现实。

这里程老师提供了另外一种获取思路:

抽一张牌,但不告诉我抽到的是什么?


问被访者:是否打过自己的伴侣
如果抽到黑桃,则可以随心回答
如果抽到除黑桃外的其他3种花色,则只能回答是

最后,将回答是的比例减去75%,再除以25%,即是较为真实的家暴行为***率。

因为这里,回答“是”,变成了大概率事件,且这种方法保持了面对面调查却仍然匿名的方式,结果就较为真实一些。

  1. 调查用户对微博产品的体验和感受

一个真实的案例,说是微博对用户的满意度问卷投放数个小时后,评分突然大幅下降,发生什么事儿了?


结果发现是饭圈水军,“我们给新浪微博打差评,让腾讯微博复活,给新浪点颜色看看

这个案例可以帮助我们思考一个问题:

意想不到的数据出现,是有效还是无效

如何做好测量

前面提到收集数据有那么多的困难,那么该如何科学有效地收集数据?

避免伪装

人是爱面子的,会伪装

  • 调整问法,让他更自然地表达

比起直接问你支持谁,还不如问,你的邻居支持谁?

  • 巧妙设计,让他明白真实答案没有后果

比如,刚刚提到的抽牌匿名法

  • 官方身份,反正你们都知道,说谎没有意义

比如知乎问你最喜欢看哪些问题?普罗大众肯定觉得,你应该都知道的吧,不然每天给我推送的是啥?

避免从众

人性是容易服从、容易引导的,要避免从众压力

《是,首相》中奸臣做民调就体现了这一点。就“是否支持恢复兵役”的民调是可控制的。在下面一系列“是”的回答后,人们有很大的可能支持恢复兵役。


但换一种问法也是可以的

因此不同的问卷调查方法,可能会得到不同的结果,要避免给人从众的压力。

避免复杂

人性是懒惰的,调查请不要太麻烦

动辄几十道问卷调查题目真的很让人头疼。

包容

人性是千奇百怪的,要尽可能包容你所见到的现象

如何用好数据

幸存者偏差想必大家已经听过无数次了,不太了解的童鞋可以在这篇文章中看看。

数据分析中会常犯哪些错误,如何解决?


简单来说幸存者偏差就是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息。这个案例告诉我们用好数据多么的重要

一个问题

有什么方法能测量感情的健康程度

如何测量感情的健康程度?用下面的指标来衡量吗?

  • 礼物个数

  • 约会次数

  • 陪伴时长

  • 吵架次数

  • 打架次数

还是那句话,不同的人心中有不同的评判标准,感情是特指男女还是包括父母亲情?什么是健康程度?感觉又回到了文章一开头收集数据有什么难处的问题,人的想法和感受本身就很难丈量,我们可以通过构建不同的用户画像来具体问题具体分析,主要目的是哪些指标能够帮助我们做决策。

所以大家也可以评论区聊聊,有什么方法能测量感情的健康程度


©著作权归作者所有:来自51CTO博客作者mb5fe18f5282239的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 100篇原创文章,可乐de数据分析之路
  2. 2020年出生人口会大跌吗?解读人口数据
  3. 18个常见的数据分析面试题-概率统计类
  4. Python数据可视化:2018年电影分析
  5. 数据分析都会用到哪些工具?
  6. 2020年小红书校招数据分析笔试题
  7. 数据分析中会常犯哪些错误,如何解决?
  8. 如何进行数据图形化?
  9. 数据分析应关注AARRR模型的哪些指标

随机推荐

  1. Android中margin和padding的区别
  2. Android学习路线图
  3. android 各种小项目
  4. Android流式布局FlowLayout
  5. Android: Android图形基础
  6. Android学习笔记 - 控件篇
  7. 做Android的感想
  8. Android API中文文档AccessibilityServic
  9. EditText部分属性使用
  10. Android标题栏、状态栏、全屏