并非所有信息都是等价的:在人类自动化团队中披露不同类型的可能性信息对信任、服从性和依赖性以及任务绩效的影响


 

目的:研究研究了披露不同类型的可能性信息对人类操作员对自动化的信任、依从性和依赖行为以及人类自动化团队绩效的影响。


背景:为了促进对自动化的适当信任和依赖,人们以明确地传达自动化系统成功的可能性作为一个解决方案。现在已经证实,以自动化可靠性、确定性和置信度的形式来揭示可能性信息拥有潜在的好处。然而,这些研究的结果十分复杂。


方法:我们对60名参与者进行了一项模拟监控任务的“人在回路中”的实验。每个参与者在一个不完善的自动威胁检测器的帮助下执行一个补偿跟踪任务和一个威胁检测任务。我们设置了三种类型的可能性信息:总体正确率、预测精准度、命中率和正确拒绝率。度量值为参与者对自动化系统的遵从性和依赖行为以及任务绩效的信任程度。


结果:当人类操作员被告知预测精确度或总体正确率,而不是命中率和正确拒绝率时,可以更恰当地依赖于决策辅助,并获得更高的任务分数。


结论:并非所有的可能性信息对人机团队绩效的帮助上都是相等的。应该避免直接显示自动决策辅助的命中率和正确拒绝率。


应用:研究结果可用于自动辅助决策系统的设计。


关键词:人机交互,对自动化的信任,可能性警报,贝叶斯推理,基础谬误率

 

1.    介绍


自动化辅助决策工具已广泛应用于军事行动、医疗诊断、运输安全管理局(TSA)等领域。随着自动化系统在感知、计划、学习和操作执行方面变得更加强大,它有望显著地提高人工自动化团队的性能。然而,当人类代理人对自动化给予不合理的信任和依赖时,或者当他们没有表现出足够的信任和依赖时,就会出现问题。

为了促进人对自动化系统适当的信任和依赖,有人提出了要明确地显示自动化系统正确的可能性。实证研究调查了以自动化可靠性、确定性和置信度的形式来显示可能性信息的潜在好处。在现有的研究中,很少有基于特定计算算法的,例如McGuirlSarter的研究中使用的神经网络。不足为奇的是,为了对自动化的性能进行建模,现有的大多数研究都使用了信号检测理论,并以此为基础计算似然信息。然而,这些研究的结果似乎并不一致。一些研究表明,可能性信息可以极大地帮助人类操作人员校准他们的信任度,调整其服从性和依赖性行为,并增强人类自动化团队的绩效。然而还有一些研究报告说,即使展示了可能性信息,人类操作员也不信任或依赖自动化的决策辅助工具。对现有文献的仔细检查表明,使用不同的方法来计算可能性信息,可能会导致结果的不同。

SDT对信号与噪声之间的关系以及自动化检测噪声中信号的能力进行建模。客观真实的状态有“信号存在”或“信号不存在”两种情况,自动化系统可能会正确识别,也可能无法正确识别。客观真实的状态和自动化检测的结合会导致四种可能的状态:命中,未命中,错误警报(FA)和正确拒绝(CR;请参见图1)。

基于SDT的框架,自动化系统所给出的可能性信息的计算大致可分为三类。第一类是自动化系统的总体正确率,而不管报准率或正确拒绝率如何。例如,DzindoletPierceBeckDawe研究了自动辅助决策工具所犯错误的数量如何影响自动辅助工具的感知性能和依赖性。在他们的研究中,参与者观看了200张幻灯片,这些幻灯片展现了军事地形,参与者在自动辅助决策或人工辅助决策的帮助下,指出是否有穿着迷彩服的士兵出现在幻灯片中。在200次试验后,一半的参与者被告知了辅助决策系统的可靠性(错误总数),另一半则没有。然后,参与者对辅助决策的表现进行评分,并在从过去200个试验中随机选择的10个试验中指出,在目标检测任务中是否依赖于辅助决策。结果表明,这两种决策辅助工具的可靠性都得到了更好的评价。最近,Walliser等人进行了一项研究,参与者与四架使用自动目标识别系统识别敌人或友军目标的无人机进行交互。结果表明,当参与者被告知总体正确率信息(文中的“正确识别率”)时,参与者在与自动化交互时倾向于使用更合适的策略,从而获得更好的任务性能。

第二类可能性信息是预测精确度,计算方法为Hits/(Hits/+FAs)CRs/(Misses+CRs)。正样本精准度表示信号真实存在时自动化系统给出正确警报的概率。负样本精准度表示没有信号存在时自动化系统没有给出警报的概率。沿着这条研究路线,Wang等人使用战斗识别(CID)任务检验了对人类操作员的信念、信任和依赖呈与正预测值的影响。在这项研究中,参与者通过一个不完美的CID来区分朋友和敌人。更具体地说,由于它的工作机制,一旦CID识别出一个士兵是友好的,它总是正确的。然而,当CID将一名士兵识别为“未知”时,该士兵可能是“友好”、“敌对”或“中立”的。“一半的参与者被告知正样本预测的精确度,另一半则没有。他们的研究结果表明,向用户披露正样本精度对信任和依赖有正向影响。在后续研究中,NeyedliHollandsJamieson开发了四种视觉显示器,用于显示CID任务的预测值。实验中对似然信息的显示类型(pie, random mesh)和显示接近度(integrated, separated)进行了处理。结果表明,参与者对自动化的依赖程度更高,对集成显示和随机网格显示的敏感度更高。对似然报警的研究也揭示了揭示预测值的影响。与传统的二值化报警不同,可能性报警是通过将一个状态划分为两个或两个以上的等级来综合状态信息和似然信息。例如“warning”和“caution”都可以表示目标的存在,而“warning”表示可能性更高。虽然没有明确说明,但这些研究操纵了正样本预测值和负样本预测值,以表示在给定自动化响应的情况下,真阳性和真阴性的各种可能性,这表明,人类对可能性更高的警报表现出更高的信任和依赖。尽管有了上述的研究,Fletcher等人仍然要求参与者观看一系列模拟声纳返回,并判断目标是否存在。然而,在给定返回信号的情况下,指示目标存在的可能性的环的显示似乎并未改善参与者将目标与噪声区分开的能力。

第三类可能性信息是命中率和正确拒绝率,计算方法为hit/(hit+miss)CRs/(FAs+CRs)。命中率是给出真实信号时自动发出警报或警报的概率,而CR率是没有信号时自动静默的概率。将预测精确度与hit/CR率区分开来是很重要的。实际上,正/负预测值和命中率/命中率是相反的条件概率。这两个预测值可以使用Bayes定理从命中率/命中率中得到。BagheriJamieson研究了向操作员提供有关自动化可靠性的上下文相关性质的信息的效果。参与者同时执行三个任务:跟踪、燃料管理和系统监控。监视任务是自动化的,显示异常数字的仪表将自动重置其值。但是,有时自动化系统无法(错过)校正值,因此操作员应进行干预,同时会将自动化系统的可靠性,这里指命中率高命中率“略低于100%”或低命中率“略高于50%披露给参与者。与之前的一项研究相比,在参与者不知道可能性信息的情况下,似乎没有证据表明披露命中率对自动化或任务性能的信任有任何有益的影响。

 

2.    目前的研究


上述关于可能性信息的研究表明,提供总体正确率可以改善偏好和任务绩效。此外,有积极的证据支持,提供预测精确度可以帮助人类操作员校准他们的信任和调整他们的依赖行为,导致更好的性能。相比之下,透露hit/CR率似乎没有什么好处。尽管结果不一致,但几乎没有研究直接比较揭示不同类型可能性信息的效果。

在本研究中,我们旨在探讨不同的可能性信息计算方法是否以及如何影响操作员对自动化的信任和依赖以及任务绩效。我们认为,提供可能性信息的有益影响至少受到两个因素的影响。第一个因素是信息粒度——在某种特定条件下,似然信息表示概率信息的程度。与预测值和命中率/CR率相比,总体正确率的粒度较细,因为无论自动化响应是什么(警报或无警报),它都代表整体的概率。

第二个因素是信息的直接性,即可能性信息可以直接用于指导人们的行为,而不需要估计或整合其他信息的程度。预测价值是最直接的指导人们的依从性和依存性行为。正样本预测精确度表示当自动化的警报或警报响起时,有x%的机会出现一个真正的信号。从概率上讲,如果自动化的警报响100次,就会有x个真正的警报和100 - x个错误发出的警报。一个最优的决策者应该只检查x个真正的报警次数,并在FAs发生时节约自己的时间和资源。同样的逻辑也适用于负样本预测精确度。相反,命中率/CR(正确拒绝)率不太有用,因为操作员无法直接使用概率来指导其行为。相反,命中率/CR率需要与基本正确率集成在一起,以产生有用的指导行为信息。这种特殊的整合过程(称为贝叶斯推理)非常困难。为了更好地说明贝叶斯推理的思想,请考虑以下情形:

机场安全员借助几乎完美的辅助决策工具来检测威胁。如果辅助决策设备识别出威胁,则会发出警报,保安人员还可以手动检查任何行李。辅助决策在95%的时间内都是正确的。换句话说,如果存在威胁,则辅助决策程序以95%的概率识别出威胁,如果没有威胁,则辅助程序静默的概率为95%。假设威胁在机场很少见,平均仅在1%的时间内发生。如果警报响了,警官是否应该惊慌,实际上发生威胁的可能性有多大?

在本例中,命中率为95%。然而,这并不意味着当警报响起时,就有95%的可能性存在威胁。为了正确回答这个问题,我们需要使用贝叶斯规则来计算正预测值,在数学上就是命中率的倒数:


真正威胁的概率只有16%!如果我们不考虑与任务相关的回报结构(即漏报一个会付出很高的代价),在100个警报中,警官只需要手动检查16件行李,在警报响起的84%的时间里,警官可以把时间花在其他任务上。

之前的研究表明,使用贝叶斯规则需要认知能力,这有几个原因。首先,基本的正确率不容易获得,操作员需要对它进行估计。其次,在进行概率判断时,操作员可能忽略了Pr(Threat)的基本概率,即威胁只在1%的时间内发生(Kahneman)。第三,一个人可能对PrAlram|Threat)及其倒数PrThreat | Alarm)感到困惑,因为两者都与准确识别威胁的可能性有关(Bar-Hillel1980)。由于进行贝叶斯推理较为,我们推断命中率/CR率是并不是最直接有效的。

总体正确率表示在给定自动化响应警报或无警报的情况下,处于真实状态(hitCR)的概率,更高的概率意味着操作员应该更全面地信任自动化系统。总体正确率仅对人工操作者的行为进行综合性指导——如果自动化总体成功可能性为80%,当自动化发出100条建议(无论建议是什么)时,80条建议是正确的。尽管缺乏粒度,我们推测总体正确率比hit/CR率更直接,因为它可以很容易地用于指导总体人类行为。

由于这两个因素的影响,我们预测在不同的可能性信息类型下,参与者的信任、依赖和双任务绩效会有显著差异。特别是,披露hit/CR率对培养适当的信任和依赖是最没有好处的,而且会导致最差的任务性能。相反,揭示预测精确度将是最有益的。

 

3.    方法


这项研究符合美国心理学会的道德规范,并得到密歇根大学机构审查委员会的批准。


参与人员


共有25名男、36名女大学生(平均年龄22.28岁,SD=4.88),视力正常或矫正至正常。实验结束后,参与者得到了10美元的补偿。此外,根据他们的表现,还有机会获得15美元的额外奖金。


设备和外界刺激


我们在实验中使用了模拟监视任务。在实验任务中,要求参与者控制模拟的无人机群的飞行水平(本质上是补偿性跟踪任务),同时检测来自无人机的图像馈送中的潜在威胁(图2)。参与者能在任何时间访问跟踪任务或检测任务的显示,并且需要在两个显示之间切换。使用Java对模拟的监视任务进行编程,并在24英寸监视器上运行实验。

跟踪任务。每次试验在跟踪显示器上开始,持续10秒。跟踪任务是基于PEBL(心理学实验构建语言)补偿跟踪任务编写的。参与者使用操纵杆将一个随机漂移的绿色圆圈移动到位于屏幕中心的十字准线上,如图2(a)所示。当试验开始时,绿色的圆圈从十字准星的中心开始。圆的位置是它之前的位置、速度和三个力的作用的函数。第一个力是用户输入。第二种力是由六个不同振幅、频率和相位角的正弦波组成的抖振力。第三种力模拟了导致圆圈在看不见的光滑表面上滑动的重力。由于抖振力和引力的作用,圆随机漂移。跟踪任务的性能由两个指标来衡量跟踪误差(RMSE)的均方根和跟踪分数(010)。跟踪误差——以像素为单位的圆和十字准星之间的距离——以20赫兹的频率测量。基于先前研究中收集的数据集,使用RMSE分布的10bin直方图计算跟踪得分。


检测任务。除了跟踪任务,每个试验参与者都从模拟无人机上收到一组新的四张图像,并负责威胁检测。这四张图像在每次试验中都是静态的,如图2(b)所示。该威胁是一个如图2(c)所示的人,在四个图像中只有一个威胁会出现。在这四张图片中没有干扰物,参与者也不确定这个人是朋友还是敌人。威胁在四个图像上的分布是一致的。参与者在一个不完善的自动威胁探测器的帮助下完成检测任务。如果探测器识别出威胁,那么当以视觉和听觉两种方式开始试验时,警报“危险”立即消失。视觉红色警报仅显示在跟踪显示器上(2(a)),而听觉通知是“危险”的合成声音。参与者需要通过尽可能准确和快速地按下操纵杆上的“报告”按钮来识别威胁的存在。参与者可以盲目地跟随威胁检测器的决策,也可以亲自查看图像并做出自己的决策。如果探测器没有发现任何威胁,警报就会保持沉默。参与者没有报告没有威胁,也就是说,当没有威胁时,参与者不需要采取任何行动。检测任务的性能是通过检测时间、检测精度和检测分数来衡量的。

  在两个显示器之间切换。每次试验都在跟踪显示器上开始。参与者一次只能访问一个显示器,并且需要使用操纵杆上的“开关”按钮在跟踪和检测任务的显示器之间切换。每次在显示器之间切换时,都会有0.5秒的时间延迟,模拟计算机处理和加载显示器的时间。程序自动跟踪参与者按下“开关”按钮的时间戳和次数。

评分系统。在实验任务,参与者同时跟踪任务,执行检测任务和需要作出取舍决定任务执行在任何时间,也就是说,如果他们决定检查的四个图片,他们可能会在检测任务上赚取更多的分数,但同时在跟踪任务上得分会减少,反之亦然。因此,必须确定一个收益结构,通过确保一个任务的潜在收益与另一个任务的机会成本近似相等来消除对跟踪或检测任务的潜在偏差。我们进行了一项初步研究,以确定回报结构(详见附录)。每个试验参与者对于跟踪任务可以获得0 - 10分,对于检测任务可以获得0 - 5分:


实验设计


本实验采用2(自动化可靠性:低vs.)×3(可能性信息:总体准确率、预测精确度、命中率/CR)混合设计,以自动化可靠性为被试内因素,可能性信息为被试间因素。

  我们还基于SDT对自动威胁检测器的可靠性进行了配置。在本研究中,标准c设置为-0.25,灵敏度d设置为1.53,导致自动化程度低而可靠性高(1)。我们将基本事件发生率设置为30%。根据预先设置的cd'和基本速率,计算命中、未命中、FAsCRs的出现次数,并将其四舍五入为整数,同时计算出不同类型的可能性信息,如下所示:

度量标准


信任度。我们使用视觉模拟量表测量参与者的主观信任度(Wiczorek & Manzey)。信任量表最左边的锚表示“我一点也不信任探测器”,最右边的锚表示“我绝对信任探测器”。随后,视觉模拟比例被转换成0100的比例。作为实验设计的一部分,除了信任评级之外,参与者还需要报告他们在没有决策帮助的情况下执行任务时的自信程度,以及决策帮助的可靠性。由于这两个测量与本研究的相关性较小,我们没有报告数据分析结果。

遵从性和依赖性。我们还评估了参与者的依从性和依赖性行为。遵从性和信赖性在操作上被定义为参与者盲目遵循自动威胁检测器给出的建议而不综合判断检测结果的可能性。其中,遵从性表示为参与者在收到“危险”警报时,在没有反复检查检测显示的情况下,盲目报告威胁的可能性,信赖度计算为参与者在探测器没有声音时,既没有报告也没有反复检查的可能性:


性能。检测任务的性能通过检测精度、检测时间以及检测分数来衡量。使用RMSE和跟踪分数计算跟踪任务的性能。两种任务的综合性能为检测分数和跟踪分数之和。


实验的程序


到达后,参与者提供知情同意并填写统计表。之后,参与者接受任务练习。练习部分包括一个只有跟踪任务的30个试验块和一个有8个试验块的组合任务,其中参与者经历了2次命中、2次未命中、2FAs2CRs。参与者被告知,在练习中使用的自动威胁探测器只是示范作用。之后,他们被随机分配到三种可能性信息条件中的一种。然后向参与者显示类似于图1的表。根据分配给参与者的条件,将定义、含义和特定可能性信息的计算公式介绍给参与者。为了确保参与者理解了似然信息,我们给了参与者一个包含不同命中次数、未命中次数、FAs次数和CRs次数的示例,并要求他们自己计算似然信息。如果一个参与者做不到,我们会重申定义,并再次显示给参与者,可能进一步澄清具体的条款,直到参与者得出正确的答案。

实验由两个50个不同自动化可靠性的试验块组成。自动化可靠性的顺序是平衡的。在实验之前,参与者被口头告知了可能性信息的值。一条显示概率的屏幕贯穿整个实验。在每个试验开始之前,都有一个带有3秒倒计时计时器的启动屏幕。每次试验结束后,参与者都被告知检测的准确性、跟踪评分、本次试验的检测分数以及到目前为止的累计分数。每五次试验之后,参与者都表明了他们的信任。参与者被告知,他们的主观评分应该基于他们迄今为止完成的所有试验,而不是之前的五个试验。

 

4.    结论


有一个参与者的数据被排除在分析之外,因为他的跟踪任务表现低于均值的三个标准差。所有的假设都用剩下的60名参与者的数据进行了测试。我们使用混合设计协方差分析(ANCOVA)来分析自变量和因变量之间的关系。参与者在练习阶段的跟踪任务表现(最后10次试验)被用作分析的协变量。α水平被设定为0。对所有统计测试。所有事后比较使用Bonferroniα校正。


主观信任


信任。随着自动化可靠性的提高,参与者对自动威胁检测器的信任度提高,F(1,56) = 7.533, p = 0.008。但可能性信息的影响并不显著。

遵从性和依赖性

3显示了参与者的遵从性和依赖性行为

遵从性。自动化可靠性越高,自动威胁检测器的符合率越高,F(1,56) =7.196, p = 0.01。可能性信息的影响不显著。

依赖性。自动化可靠性和可能性信息,显著影响依赖率。更高的自动化可靠性导致更高的依赖性。此外,与总体正确率性和hit/CR率相比,为参与者提供预测精准度会导致对自动威胁检测器的更高依赖。


性能


检测性能。如图4所示,当自动化可靠性增加时,参与者检测威胁更准确,更快,得分更高。但似然信息的影响不显著。

跟踪性能。如图5所示,自动化可靠性以及可能性信息对跟踪分数具有重大的主要影响。事后分析表明,向参与者展示命中率/ CR率时,他们的追踪得分最低。

结合性能。自动化系统的可靠性和可能性信息的主要影响是显著的(6)。随着自动化可靠性的增加,参与者获得了更高的综合得分。三种似然信息之间也存在差异。事后分析显示,被告知总体正确率性或预测精准度值而不是命中率/CR率的参与者的总分更高。


5.    结论


在本研究中,我们预测在不同类型的可能性(概率)信息下,参与者的信任、依赖和双任务绩效会有显著差异。特别是,披露hit/CR率对培养适当的信任、遵从和依赖行为是最没有益处的,并且会导致最差的任务绩效。相反,揭示预测价值将是最有益的。我们讨论结果如何支持我们的预测。


自动化系统的信任


结果表明,三种可能性信息的可信度差异并不显著。实验的不足之处可能有两点。首先,一维信任量表的敏感性可能不如多维信任量表的敏感性高。单维尺度具有易于实现的优点。然而,与多维尺度相比,它可能无法捕获信任概念背后的不同维度。两个广泛使用的多维量表分别有12个和7个问题。其次,威胁检测器的可靠性在不同类型的似然信息之间是一致的。因此,信任的判断很大程度上可能是基于自动检测器的真实性能,而不是基于可能性信息的表示。需要进一步的研究来系统地检查一维和多维信任量表之间的潜在差异。


服从和依赖性行为


我们发现三种可能性信息之间存在显著的依赖度差异和不显著的服从性差异。与总体正确率和命中率/CR率相比,公开预测精准度会导致更高和更适当的依赖性行为。我们认为,预测精准度为最佳的展示参数。负样本预测精准度如果等于x%,则表示当自动化处于静默状态时,检测器有x%的机会清除了误报的情况。因此,从概率上讲,如果威胁检测器在100次实验中都保持静默,则操作人员只需亲自检查100 - x个站点。

在我们的研究中,对于高可靠性自动化的负样本预测精度为97%,对于低可靠性自动化的负样本预测精度为92%。因此,对于人工操作者来说,一个合理的策略是只对少量的站点进行交叉检查,并在跟踪任务上分配更多的资源。当呈现负样本预测精度时,参与者的信赖率分别为90.8%83.8%(见图3和表2),与97%92%的可选值相当接近。当告知总体正确率时,观测到的信赖度值分别为79.7%46.5%,与最优值相差较大;当使用hit/CR率时,所观察到的信赖度值分别为59.8%37.7%,离最优值最远。在本研究中,事件的基本概率设定为30%。在现实生活中,关键事件的基本比率通常要低得多。在较低的基准率下,大多数情况下,自动决策辅助将是静默的,并且随着预测精度促进适当的依赖行为,预测精度呈现的好处将进一步增大。

我们没有发现参与者服从性行为的意义。这种可能是由于参与者缺乏在检测和跟踪任务之间的策略。高可靠性自动化的正样本预测精度为78%,低可靠性自动化的正样本预测精度为54%。然而,在所有的可能性条件下,符合率远远低于最优值(见图3和表2)。这表明参与者反复检查检测结果的频率远远超过了他们应该做的。我们的观察进一步证实了这一点:参与者提到跟踪任务相当无聊,即使策略不是最优的,他们也更喜欢反复检查检测显示。不必要的交叉检查行为允许参与者检测自动检测器未能识别的威胁,并在检测任务中提高了类似的性能。

性能比较

结果表明,跟踪任务和检测任务存在显著性差异。预测精度和总体正确率下的跟踪性能优于命中/CR率条件下的跟踪性能。这些结果可归因于参与者的信赖和服从行为。当提供hit/CR率时,参与者的依赖行为是最不理想的,这意味着他们交叉检查的频率比他们应该做的要高得多。每次执行交叉检查时,参与者都无法访问跟踪显示,从而影响跟踪性能。此外,如前所述,相似的遵从行为导致了检测任务中相似的性能。

观察到的有关跟踪和检测性能的比较表明,自动威胁检测器主要用作多任务环境中注意力管理的工具,从而使连续的独立任务(即跟踪任务)受益,而不是直接使辅助任务受益的工具(即检测任务),结果支持了WiczorekManzey的发现。

此外,我们还观察到组合任务性能的差异。揭示预测精度和总体正确率信息比hit/CR条件下的综合性能更高。我们注意到用相同的测量单位获得一个明确的损失结构的重要性。之前的文献大多没有报道联合任务绩效,这主要是因为不同的任务是用不同的单位来衡量的,而联合任务绩效评分是不可能得到的。

最后,与之前的研究结果一致,我们的结果表明,随着自动威胁检测器变得更加可靠,参与者对威胁检测器的信任和依赖性增强了,他们的双任务性能得到了改善。

 

6.    结论

尽管展示可能性信息已经被作为一种设计解决方案,以促进适当的信任和依赖,并提高人类自动化团队的绩效,但之前的研究显示了不同的结果。本研究的目的是通过实验检验不同类型可能性信息呈现的效果。基于SDT框架,我们将之前文献中计算的可能性信息分为三种类型:总体正确率、预测精确度和hit/CR率。

本研究提供了一个框架,以总结有关展示可能性信息的现有文献。我们的结果表明,并非所有的可能性信息都是同样有用的。应该避免简单地显示hit/CR率。我们的发现可以应用于广泛的领域,如城市搜索和救援(USAR)、医疗诊断和TSA,这些领域的hit/CR率通常很容易获得,但无法获得预测精度和总体正确率。Hit/CR率,也称为敏感性和特异性,被称为诊断信息。通常,人们更容易获得诊断信息。例如,当一种新的检测方法被引入时,医生通常会得到诊断信息;HIV检测的准确率是99%——如果一个病人感染了HIV,有99%的可能检测出阳性结果;如果一个病人是健康的,有99%的可能检测结果是阴性。

在引入自动辅助决策系统时,应努力澄清不同类型的可能性信息之间的含义。先前的研究表明,人们可能会混淆预测精度和hit/CR率。在现实生活中,关键事件的基本概率通常很低,错误地将hit/CR率作为预测精度将导致更有害的结果。

我们应理性看待这些调查结果。首先,与之前的研究一致,我们没有向参与者提供事件基本概率,他们必须自己估计。未来的研究可以向参与者提供基本概率,并检查人们是否可以更适当地使用hit/CR比率。在进一步的研究中,还可以对基本概率进行操纵,以检验基本概率极低时的可能性信息的影响。其次,我们使用概率而不是自然频率来表示可能性信息。之前的研究表明,使用自然频率进行推理可以得到更准确的推论。未来的研究可以比较呈现概率和固有频率的差异。第三,本研究中c标准设定宽松,导致FAs多于miss。未来的研究应检查不同的d'c的似然信息的影响。

 

7.    附录

在实验任务中,参与者同时执行跟踪任务和检测任务。参与者被要求在任何时候都要在执行哪个任务上做出权衡决定,也就是说,如果他们决定检查这四幅图像,他们可能会在检测任务中获得更多的分数,而在跟踪任务中获得更少的分数,反之亦然。

因此,必须确定一个收益结构,通过确保一个任务的潜在收益与另一个任务的机会成本近似相等来消除对跟踪或检测任务的潜在偏差。为了确定评分系统的参数,首先我们将跟踪任务得分设置为010分,基于绿色圆圈到十字准星中心的距离。接下来,我们将检测任务得分定义为检测精度和时间的函数,。为了确定ab,共有10名年龄在19岁到23岁之间的参与者参与了试点研究。他们分别执行一个跟踪任务块和一个组合任务块,每个任务块有50个试验,中间有5分钟的休息。在合并的任务组中,参与者同时执行两项任务,并被告知两项任务同等重要。他们可以通过最小化绿色圆圈和显示中心之间的距离,以及尽可能准确和快速地检测威胁来优化他们的性能。一个参与者的数据被从数据分析中删除,因为他在跟踪任务中的表现非常差。结果表明,当两项任务同时进行时,参与者在跟踪任务上平均损失3.7分。然后我们改变了ab,以确保他们能从检测任务中获得大约3.7分的SD。因此,设置55×(检测时间/10,000ms)作为检测任务的评分方案。在每个联合任务试验中,可以获得的最高分为15分,10分来自跟踪任务,5分来自检测任务。


©著作权归作者所有:来自51CTO博客作者mob604756f2dcb4的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. [转]Android的绘图密码有多少种可能性
  2. 蓝牙实现签到功能(中央与周边)
  3. 关于实现S5PV210同时跑wince 和android双系统实现的可能性讨方法
  4. android用webview加载H5页面出现点击事件失效的问题解决
  5. android 积累一点关于fragment的知识
  6. 面试官问了我分布式事务,我感觉他有想给我40k的冲动
  7. 其实很重要的一个分布式理论基础3pc协议
  8. 从分组中获取最大数量
  9. Java7并发编程--3.4、Phaser并发阶段任务的运行

随机推荐

  1. HTML最简单的隐藏/显示和类过滤器
  2. javascript阻塞加载问题【转】
  3. AngularJS:登录cookie过期时如何注销
  4. 调用另一个html页面后,选择列表值不会保持
  5. 怎么javascript读取本地文件中的数据,并显
  6. RequireJS中的命名模块与未命名模块
  7. 更新:在Gulpfile中带有postCSS和Babel的
  8. 推json敲出可观察的数组
  9. Angularjs在ng-repeat中找到最后一个可见
  10. Angularjs:如何将范围变量传递给指令?