玩电子游戏的神经网络教会我们关于我们自己的大脑
当你开车时,你的大脑会接收大量的视觉信息,并用它来做出驾驶决定,比如什么时候刹车或变道。大脑需要确定您视野中的哪些信息是做出这些决定所必需的。例如,另一辆车的位置非常重要,但天空中的云彩或那辆车的颜色对您的驾驶方式并没有真正的影响。
这是在复杂的自然环境中进行决策的日常示例。在有大量感官数据和需要快速做出决定的情况下,大脑在做什么?为了研究这个问题和相关问题,研究人员可以使用日常生活中的模拟进行实验:视频游戏。
加州理工学院的一项新研究将人类玩经典 Atari 视频游戏的大脑扫描与经过训练可以玩相同游戏的复杂人工智能 (AI) 网络进行了比较。在研究生 Logan Cross 的带领下,研究人员将受过训练的 AI 的行为与人类的行为进行了比较,发现 AI 中人工“神经元”的活动与人脑的活动非常相似。这意味着人工智能代理可能会像人脑一样解决这些决策任务,使其成为研究人脑如何将高维视觉输入映射到复杂环境中的动作的良好模型。
这项研究是在心理学教授约翰·奥多尔蒂 (John O'Doherty)的实验室进行的 。一篇描述这项研究的论文发表在《神经元》杂志上 。O'Doherty 是加州理工学院天桥和 Chrissy Chen 神经科学研究所的附属教员。
“人工智能和神经科学之间的相互作用是双向的,”O'Doherty 说。“如果我们能够找出 AI 算法与大脑的相似程度,这有助于我们更好地了解大脑如何解决这些难题,但反过来说,如果我们能够了解大脑为何以及如何比其他算法更有效地解决这些游戏人工智能,这可能有助于指导未来更智能、更人性化的人工智能算法的开发。”
在决策神经科学领域,研究大脑中的神经活动导致决策的方式,许多研究使用简单的任务来检查人类如何做出决策。例如,可能会要求研究参与者玩两台具有不同支出的老虎机。在实验过程中,参与者将了解哪台老虎机赚得更多,并相应地调整他们的行为。解决这些任务的一般学习框架称为强化学习,因为决策产生的奖励结果强化了行为。
然而,单独的强化学习框架并不能充分描述更大、更复杂任务中的决策。2015 年,谷歌旗下的人工智能公司 DeepMind 开发了一种复杂的人工智能算法,称为 Deep Q Network (DQN),可以学习玩几十款人类或超人级别的 Atari 视频游戏。
DQN 将经典的强化学习框架与另一种称为卷积神经网络的最新进展相结合。卷积神经网络充当感知系统,学习检测 Atari 像素空间(游戏屏幕)中可预测奖励(得分)的视觉特征。这使 DQN 能够通过查看游戏中的像素来了解在给定情况下应采取哪些行动。重要的是,游戏规则并未编入 DQN 代理;它必须自己学习如何通过反复试验来玩游戏,因为当智能体得分时(以及导致得分的动作),正确的决策会得到积极的加强。
在这项研究中,DQN 接受了 Atari 电子游戏Pong、 Space Invaders和 Enduro (一种赛车游戏)的训练 ,然后其人工神经元被用于从人类参与者的功能磁共振成像脑部扫描中预测行为和大脑活动,如他们玩游戏。特别是,研究人员发现,可以使用 DQN 特征对涉及感知和视觉的两个大脑区域(背侧视觉通路和后顶叶皮层)的大脑活动进行建模。
在所有游戏中,DQN 必须学习如何像人类一样从大量视觉输入中挑选出相关特征。它必须在所谓的状态空间中格式化这些相关信息,这是一种表示游戏当前状态中正在发生的事情的紧凑方式。例如,在 Pong 中,研究人员发现 DQN 中的状态空间编码球和球拍的空间位置;它忽略了背景颜色和屏幕顶部的游戏分数等功能。这与人类大脑在背侧视觉通路中表示游戏的方式非常相似——大脑的一部分识别物体在空间中的位置,以指导与这些物体相关的动作。
在Enduro游戏中 ,玩家尽可能快地驾驶汽车并试图避开其他汽车。在行驶过程中,天空从白天到黑夜都在变换颜色。玩游戏的人很容易忽略这些参数,因为它们与实际游戏无关,就像我们在开车时学会忽略天空中的云一样。但是人工智能网络必须知道天空颜色的变化对驾驶没有影响。
研究人员发现,忽略这些无关视觉特征的 DQN 中的特征更好地解释了在玩游戏的志愿者的后顶叶皮层中看到的大脑活动模式,后顶叶皮层是大脑中将感知与运动联系起来的部分。在《太空侵略者》中也发现了类似的结果 。
虽然研究人员发现了 DQN 和人脑之间的相似之处,但两者并不相同。
“DQN 需要连续玩几天才能学会玩这些游戏,但人类可以在几分钟内学会,”克罗斯说。“为什么人脑在驾驶汽车时很容易弄清楚相关特征是什么,而人工智能却很难?回答这个问题对人工智能研究人员来说是一个巨大的挑战。人工智能很难,因为随着背景颜色的变化,它的视觉输入会发生巨大的变化,因为它只是“看到”像素空间中的数字。DQN 需要进行大量训练才能了解到在像素空间中截然不同的两种情况实际上在概念上相似,你应该做什么。”
另一方面,Cross 补充说,人类大脑在其整个发展过程中都被塑造成学会为日常任务挑选最重要的信息。“特别是背侧视觉通路,这是我们的主要兴趣区域,能够独立于颜色快速定位物体,”他说。“此外,大脑以某种方式对物理学的常识性概念以及物体通常如何运动进行编码,这使人类无需训练就可以很好地执行各种任务。所有这些都必须由 DQN 从头开始学习。”
近年来,其他研究发现了大脑和深度神经网络之间的相似之处,但这些研究大多集中在物体识别而不是主动决策上。这项研究引入了一个新框架,用于研究复杂决策任务中的行为和大脑活动,这些任务可能比以前在该领域使用的任务更能代表日常生活。
标签: