什么时候应该相信人工智能助手的预测
在一家繁忙的医院里,一位放射科医生正在使用人工智能系统根据患者的 X 射线图像来帮助她诊断医疗状况。使用人工智能系统可以帮助她更快地做出诊断,但她怎么知道什么时候可以相信人工智能的预测呢?
她没有。相反,她可能会依靠她的专业知识、系统本身提供的置信度或对算法如何做出预测的解释——这可能看起来很有说服力,但仍然是错误的——来做出估计。
为了帮助人们更好地理解何时信任人工智能“队友”,麻省理工学院的研究人员创建了一种引导技术,引导人类更准确地理解机器做出正确预测和做出错误预测的情况。
通过向人们展示人工智能如何补充他们的能力,训练技术可以帮助人类在与人工智能代理合作时做出更好的决策或更快地得出结论。
计算机科学和人工智能临床机器学习小组的研究生 Hussein Mozannar 说:“我们提出了一个教学阶段,我们逐渐将人类引入这种 AI 模型,以便他们自己看到它的弱点和优势。”实验室(CSAIL)和医学工程与科学研究所。“我们通过模仿人类在实践中与 AI 交互的方式来做到这一点,但我们会进行干预以向他们提供反馈,以帮助他们理解他们与 AI 进行的每一次交互。”
Mozannar 与领导 CSAIL 可视化小组的计算机科学助理教授 Arvind Satyanarayan 一起撰写了这篇论文;麻省理工学院电气工程和计算机科学副教授、临床机器学习小组负责人、资深作者大卫·桑塔格。该研究将于 2 月在人工智能促进协会上发表。
心智模型
这项工作的重点是人类建立的关于他人的心智模型。如果放射科医生对某个病例不确定,她可能会询问某个领域的专家同事。根据过去的经验和她对这位同事的了解,她有一个关于他的优点和缺点的心智模型,她用它来评估他的建议。
Mozannar 说,人类在与 AI 代理交互时会构建相同类型的心智模型,因此这些模型的准确性非常重要。认知科学表明,人类通过记住过去的互动和经历来为复杂的任务做出决定。因此,研究人员设计了一个入职流程,提供了人类和人工智能协同工作的代表性示例,作为人类未来可以借鉴的参考点。他们首先创建了一种算法,该算法可以识别最能向人类传授人工智能知识的示例。
“我们首先了解人类专家的偏见和优势,通过观察他们过去不受人工智能指导的决定,”Mozannar 说。“我们将我们对人类的了解与我们对人工智能的了解结合起来,看看在哪些方面对人类依赖人工智能有帮助。然后我们获得了我们知道人类应该依赖人工智能的案例以及类似的案例,其中人类不应该依赖人工智能。”
研究人员在基于段落的问答任务中测试了他们的入职技巧:用户收到一个书面文章和一个问题,其答案包含在段落中。然后用户必须回答这个问题,并可以点击一个按钮来“让 AI 回答”。然而,用户无法提前看到 AI 的答案,这要求他们依赖他们对 AI 的心智模型。他们开发的入职流程首先向用户展示这些示例,用户试图在 AI 系统的帮助下做出预测。人类可能是对的或错的,人工智能可能是对的或错的,但无论哪种情况,在解决了示例之后,用户都会看到正确的答案以及对 AI 选择其预测的原因的解释。为了帮助用户从示例中进行概括,展示了两个对比示例,解释了为什么 AI 做对了或错了。
例如,也许训练问题会根据植物教科书中的一段错综复杂的段落,询问两种植物中的哪一种原产于更多的。人类可以自己回答,也可以让人工智能系统回答。然后,她看到了两个后续示例,可以帮助她更好地了解 AI 的能力。也许人工智能在一个关于水果的后续问题上是错误的,但在一个关于地质学的问题上是正确的。在每个示例中,系统用于进行预测的单词都被突出显示。Mozannar 解释说,看到突出显示的单词有助于人类理解 AI 代理的局限性。
为了帮助用户记住他们学到的东西,用户然后写下她从这个教学示例中推断出的规则,例如“这个人工智能不擅长预测花朵”。然后,她可以在以后与代理实际合作时参考这些规则。这些规则也构成了用户对人工智能的心理模型的形式化。
教学的影响
研究人员用三组参与者测试了这种教学技术。一组经历了整个引导技术,另一组没有收到后续的比较示例,基线组没有接受任何教学但可以提前看到 AI 的答案。
“接受教学的参与者与没有接受教学但可以看到 AI 答案的参与者一样好。因此,结论是他们能够模拟 AI 的答案,就像他们看到了一样,”莫桑纳尔说。
研究人员对数据进行了更深入的挖掘,以查看个体参与者编写的规则。他们发现,近 50% 的接受过培训的人写下了关于 AI 能力的准确课程。那些有准确教训的人在 63% 的例子上是对的,而那些没有准确教训的人在 54% 的例子上是对的。而那些没有接受过教学但可以看到人工智能答案的人在 57% 的问题上是正确的。
“当教学成功时,它会产生重大影响。这就是这里的要点。当我们能够有效地教参与者时,他们能够做得比你真正给他们答案时做得更好,”他说。
但结果也表明仍有差距。只有 50% 的受过训练的人建立了准确的人工智能心智模型,即使是那些做过的人也只有 63% 的时间是正确的。Mozannar 说,尽管他们学到了准确的教训,但他们并不总是遵循自己的规则。
这是一个让研究人员摸不着头脑的问题——即使人们知道人工智能应该是正确的,为什么他们不听自己的心智模型呢?他们希望在未来探索这个问题,并改进入职流程以减少所需时间。他们还对使用更复杂的 AI 模型进行用户研究感兴趣,尤其是在医疗保健环境中。
标签: