多样性是协作的关键吗新的人工智能研究表明如此
随着人工智能在完成仅在人类手中完成的任务(例如驾驶汽车)方面变得越来越好,许多人将团队智能视为下一个前沿领域。在这个未来,人类和人工智能是高风险工作的真正合作伙伴,例如进行复杂的手术或防御导弹。但在团队智能起飞之前,研究人员必须克服一个腐蚀合作的问题:人类通常不喜欢或不信任他们的人工智能伙伴。
现在,新的研究指出多样性是使AI成为更好的团队合作者的关键参数。
麻省理工学院林肯实验室的研究人员发现,在纸牌游戏Hanabi中,与数学上“多样化”的队友一起训练AI模型可以提高其与以前从未合作过的其他AI协作的能力。此外,Facebook和谷歌的DeepMind都同时发表了独立的工作,这些工作也将多样性注入到训练中,以改善人机协作游戏的结果。
总而言之,这些结果可能会为研究人员指明一条有希望的道路,使人工智能既能表现良好,又能被人类队友视为优秀的合作者。
“我们都在同一个想法上达成共识——如果你想合作,就需要在不同的环境中进行训练——这令人兴奋,我相信这确实为合作AI的未来工作奠定了基础,”Ross说艾伦是林肯实验室人工智能技术小组的研究员,也是一篇详细介绍这项工作的论文的合著者,该论文最近在自主代理和多代理系统国际会议上发表。
适应不同的行为
为了开发合作人工智能,许多研究人员正在使用Hanabi作为试验场。Hanabi挑战玩家一起按顺序堆叠卡片,但玩家只能看到队友的卡片,对于他们持有的卡片只能提供稀疏的线索。
在之前的实验中,林肯实验室的研究人员用人类测试了世界上表现最好的HanabiAI模型之一。他们惊讶地发现人类非常不喜欢玩这个AI模型,称其为令人困惑和不可预测的队友。“结论是我们错过了一些关于人类偏好的东西,而且我们还不擅长制作可能在现实世界中起作用的模型,”艾伦说。
该团队想知道是否需要对合作AI进行不同的训练。使用的人工智能类型称为强化学习,传统上通过发现哪些动作产生最高回报来学习如何在复杂任务中取得成功。它经常根据与自身相似的模型进行训练和评估。这个过程在围棋和星际争霸等竞技游戏中创造了无与伦比的人工智能玩家。
但要让AI成为成功的合作者,或许它不仅要关心与其他AI代理合作时的最大回报,还要关心更内在的东西:理解和适应他人的优势和偏好。换句话说,它需要从多样性中学习和适应。
你如何训练这样一个多元化的人工智能?研究人员想出了“Any-Play”。Any-Play通过添加另一个目标来增强训练AIHanabi代理的过程,除了最大化游戏分数:AI必须正确识别其训练伙伴的游戏风格。
这种游戏风格在训练伙伴中被编码为代理必须估计的潜在或隐藏变量。它通过观察其伙伴行为的差异来做到这一点。这一目标还要求其合作伙伴学习不同的、可识别的行为,以便将这些差异传达给接收AI代理。
尽管这种诱导多样性的方法在人工智能领域并不新鲜,但该团队通过利用这些不同的行为作为游戏的不同游戏风格,将这一概念扩展到协作游戏。
“人工智能代理必须观察其合作伙伴的行为,以识别他们收到的秘密输入,并且必须适应这些不同的游戏方式才能在游戏中表现良好。我们的想法是,这将产生一个好的人工智能代理玩不同的游戏风格,”第一作者和卡内基梅隆大学博士说。候选人基恩·卢卡斯(KeaneLucas)曾在实验室担任实习生领导了这些实验。
和自己不一样的人玩
该团队通过Any-Play训练过程增强了早期的Hanabi模型(他们在之前的实验中与人类一起测试过的模型)。为了评估该方法是否改善了协作,研究人员将该模型与“陌生人”——它以前从未遇到过的其他100多个Hanabi模型,并通过单独的算法训练——在数百万个两人比赛中进行了合作。
Any-Play配对的表现优于所有其他团队,因为这些团队也由算法上彼此不同的合作伙伴组成。当与未经Any-Play训练的原始版本合作时,它的得分也更高。
研究人员认为这种类型的评估,称为算法间交叉游戏,是人工智能在现实世界中与人类合作表现的最佳预测指标。算法间交叉游戏与更常用的评估形成对比,这些评估是针对模型自身的副本或由相同算法训练的模型测试模型。
“我们认为,这些其他指标可能会产生误导,并人为地提高某些算法的明显性能。相反,我们想知道,‘如果你只是突然加入一个合作伙伴,而不知道他们将如何玩,你们合作得有多好?我们认为,当您无法与人类进行测试时,当评估与其他AI的合作AI时,这种类型的评估是最现实的,”艾伦说。
事实上,这项工作并没有用人类测试Any-Play。然而,DeepMind在实验室工作的同时发表的研究使用了一种类似的多样性训练方法来开发一个AI代理来与人类玩合作游戏Overcooked。“人工智能代理和人类表现出非常好的合作,这个结果让我们相信我们的方法,我们发现它更加通用,也适用于人类,”艾伦说。Facebook同样在训练中使用多样性来改善HanabiAI代理之间的协作,但使用了更复杂的算法,需要修改Hanabi游戏规则才能易于处理。
算法间交叉游戏分数是否真的是人类偏好的良好指标仍然是一个假设。为了将人类的视角带回到这个过程中,研究人员希望尝试将一个人对人工智能的感受(例如不信任或困惑)与用于训练人工智能的特定目标相关联。发现这些联系可能有助于加速该领域的进步。
“开发人工智能以更好地与人类合作所面临的挑战是,我们不能让人类在训练过程中告诉人工智能他们喜欢和不喜欢什么。这需要数百万小时和个性。但如果我们能找到某种人类偏好的可量化代理——也许培训的多样性就是这样一个代理——那么也许我们已经找到了应对这一挑战的方法,”艾伦说。
标签: