训练计算机使他们更像科学家一样思考
想象一下,您刚刚制作了一个计算机程序,该程序可以使用机器学习来区分照片中的狗和狼。该程序看起来工作正常,正确标记了“ dog for dog”,“ wolf for wolf”。但是,当您一遍又一遍地测试代码时,您意识到所有的狼照片中也都下了雪。您再次使用一张雪地里的狗的照片测试该代码,现在您的代码失败了, 把那只狗误认为狼了。
可以训练机器学习算法来区分照片中的狼与狗,但是有时这些算法会错误地假设任何雪中有雪的动物都是狼(右下),从而导致学习错误。 两名学校科学家认为,还需要监视机器学习的科学应用,以确保它们正常运行。
可以训练机器学习算法来区分照片中的狼与狗,但是有时这些算法会错误地假设任何雪中有雪的动物都是狼(右下),从而导致学习错误。两名学校科学家认为,还需要监视机器学习的科学应用,以确保它们正常运行。
机器学习是人工智能的一个分支,它使计算机能够设计自己的解决方案来解决问题,它使Google之类的公司能够开发软件,该软件不仅可以学会在照片中发现狗,还可以预测流量模式和消费者等事物。购买习惯。
长期以来,机器学习也吸引了科学家们,他们希望使用计算能力来加快研究的步伐。在2017年年末,康蔚庄,博士学位,开始了他的实验室博士后工作的 迈克尔·凯泽博士,在教员 UCSF研究所神经退行性疾病 与在联合任命 药物化学系,以改善的意图通过将自己在化学方面的专长与Keiser在机器学习方面的经验相结合,发现新药。
因此,当Chuang 注意到普林斯顿大学实验室的一份早期在线论文发表时,他声称该 论文旨在使用机器学习预测数千种化学反应的结果时,他立刻就开始研究了。
普林斯顿大学的作者开发了一种算法,可以预测几千种化学物质的结合结果,他们断言该算法是根据这些化学物质的特定特征起作用的,例如它们的原子如何振动或如何吸收辐射的模式。然而,几天之内,庄发现了论文关键图表中的缺陷。
Chuang和Keizer与Princeton组联系,并帮助他们修复了代码中的小错误。 原始论文进行了更新 和发布,但是在他们的兴趣激起的情况下,Chuang和Keizer继续思考研究结果的含义。
庄说:“我们大家都想回答的大问题是,'如何让计算机考虑分子?”
Chuang决定使用机器学习算法进行所谓的“控制”实验。在许多科学中,即使进行实验,科学家也将进行第二项实验,其中的关键部分被忽略了。如果该实验似乎仍在没有重要成分的情况下仍能正常进行,则应回到绘图板上,让科学家们找出原因。
使用这种推理方法,Chuang用随机数代替了普林斯顿小组的化学特征数据库,并再次委托机器学习算法来预测反应结果。如果算法实际上是根据这些化学特征做出预测,则结果应该会改变。但这不是发生了什么。
令人惊讶的是,该算法仍做出了几乎相同的预测。就像狗/狼算法教自己如何仅根据图像中的雪的存在来获得大多数正确答案一样,化学算法使用一种看不见的捷径来产生看似正确的答案,而没有考虑化学特征。
凯泽(Keizer)和庄(Chuang)都小心地注意到,即使此控制实验揭示了普林斯顿机器学习论文的严重缺陷,但他们自己的发现仍然有局限性。“这并不意味着[化学反应的结果]中不涉及化学特征,” Keizer解释说。“这仅意味着该机器学习研究未能证明这一点。”
在2018年末,Chuang和Keizer在自己的两篇论文中发表了他们的工作,展示 了机器学习如何使科学家误入歧途,以及科学家将来如何 避免 培训将计算机变成科学家的陷阱。
Keizer和Chuang以实验室为基础的科学控制方法为灵感,在ACS化学生物学的封面文章中 描述了三个简单的控制实验 ,科学家可以用来确保他们的机器学习算法在隐喻上不会误导狼犬。
归根结底,Keizer和Chuang希望数据科学家成为他们自己的“最苛刻的批评家”,就像他们已经学会了在自己的实验室中一样。他们目前正在开发计算工具,该工具将允许任何人轻松地应用控件以确保机器学习算法正确运行。
庄说:“整个过程对于加强我们自己的科学方法非常有用。” “我们希望在未来的研究中以身作则。”
标签: 训练计算机