一种提高人工智能公平性和准确性的技术
对于使用机器学习模型帮助他们做出决策的工作人员来说,知道何时信任模型的预测并不总是一件容易的事,尤其是因为这些模型通常非常复杂,以至于它们的内部运作仍然是个谜。
用户有时会使用一种称为选择性回归的技术,在该技术中,模型会估计每个预测的置信水平,并在其置信度过低时拒绝预测。然后人类可以检查这些案例,收集更多信息,并手动对每个案例做出决定。
但是,虽然选择性回归已被证明可以提高模型的整体性能,但麻省理工学院和MIT-IBMWatsonAI实验室的研究人员发现,该技术可能对数据集中代表性不足的人群产生相反的效果。随着模型的置信度随着选择性回归的增加而增加,其做出正确预测的机会也会增加,但这并不总是发生在所有子组中。
例如,一个建议贷款批准的模型平均可能会产生更少的错误,但它实际上可能会对黑人或女性申请人做出更多错误的预测。发生这种情况的一个原因是模型的置信度度量是使用代表人数过多的组进行训练的,并且对于这些代表人数不足的组可能不准确。
一旦他们发现了这个问题,麻省理工学院的研究人员就开发了两种可以解决这个问题的算法。他们使用真实世界的数据集表明,这些算法减少了影响边缘化子组的性能差异。
“最终,这是关于更智能地了解将哪些样本交给人类来处理。我们不仅要最小化模型的一些广泛的错误率,还要确保在一个聪明的方式,”麻省理工学院高级作者GregWornell说,他是电气工程和计算机科学系(EECS)住友工程学教授,他领导电子研究实验室(RLE)的信号、信息和算法实验室,是MIT-IBMWatsonAI实验室成员。
加入Wornell的还有共同主要作者AbhinShah(EECS研究生)和YuhengBu(RLE博士后);以及MIT-IBMWatsonAI实验室的研究人员JoshuaKa-WingLeeSM'17、ScD'21和SubhroDas、RameswarPanda和PrasannaSattigeri。该论文将于本月在国际机器学习会议上发表。
预测还是不预测
回归是一种估计因变量和自变量之间关系的技术。在机器学习中,回归分析通常用于预测任务,例如根据房屋的特征(卧室数量、平方英尺等)预测房屋的价格。通过选择性回归,机器学习模型可以做出两种选择之一对于每个输入——如果它对其决策没有足够的信心,它可以做出预测或放弃预测。
当模型弃权时,它会减少它进行预测的样本比例,这被称为覆盖率。通过仅对它高度自信的输入进行预测,模型的整体性能应该会提高。但这也会放大数据集中存在的偏差,当模型没有来自某些子组的足够数据时,就会出现偏差。对于代表性不足的个人,这可能会导致错误或错误的预测。
麻省理工学院的研究人员旨在确保随着模型的整体错误率随着选择性回归的提高而提高,每个子组的性能也会得到提高。他们称之为单调选择性风险。
“为这个特定问题提出正确的公平概念是一项挑战。但是通过执行这个标准,单调选择性风险,我们可以确保当你减少覆盖范围时,模型性能实际上在所有子组中变得更好,”说沙阿。
注重公平
该团队开发了两种神经网络算法,采用这种公平标准来解决问题。
一种算法保证模型用于进行预测的特征包含有关数据集中敏感属性的所有信息,例如种族和性别,这些信息与感兴趣的目标变量相关。敏感属性是可能不用于决策的特征,通常是由于法律或组织政策。第二种算法采用校准技术来确保模型对输入做出相同的预测,无论是否将任何敏感属性添加到该输入。
研究人员通过将这些算法应用于可用于高风险决策的真实数据集来测试这些算法。一是保险数据集,用于使用人口统计数据预测向患者收取的年度医疗费用总额;另一个是数据集,用于使用社会经济信息预测社区中的暴力数量。两个数据集都包含个人的敏感属性。
当他们在用于选择性回归的标准机器学习方法之上实施他们的算法时,他们能够通过降低每个数据集中少数子组的错误率来减少差异。此外,这是在没有显着影响整体错误率的情况下完成的。
“我们看到,如果我们不施加某些限制,在模型非常自信的情况下,它实际上可能会犯更多错误,这在某些应用中可能会非常昂贵,例如医疗保健。因此,如果我们扭转趋势并让它更直观,我们会捕捉到很多这样的错误。这项工作的一个主要目标是避免错误被默默无闻地发现,”Sattigeri说。
Shah说,研究人员计划将他们的解决方案应用于其他应用程序,例如预测房价、学生GPA或贷款利率,以查看算法是否需要针对这些任务进行校准。他们还想探索在模型训练过程中使用不太敏感信息的技术,以避免隐私问题。
他们希望改进选择性回归中的置信度估计,以防止模型置信度低但预测正确的情况。Sattigeri说,这可以减少人类的工作量并进一步简化决策过程。
标签: