对于使用机器学习模型帮助他们做出决策的工作者来说,知道何时信任模型的预测并不总是一件容易的任务,尤其是因为这些模型往往非常复杂,以至于其内部工作仍然是一个谜。
用户有时会采用一种称为选择性回归的技术,在这种技术中,模型估计其对每个预测的置信水平,当其置信度过低时,将拒绝预测。然后,人类可以检查这些案例,收集更多信息,并手动对每个案例做出决定。
虽然选择性回归已被证明可以改善模型的整体性能,但麻省理工学院和麻省理工学院-IBM Watson人工智能实验室的研究人员发现,该技术可能对数据集中代表性不足的人群产生相反的效果。随着模型的置信度随着选择性回归而增加,其做出正确预测的机会也会增加,但并非所有子组都会发生这种情况。
例如,一个建议贷款批准的模型平均而言可能会犯更少的错误,但实际上可能会对黑人或女性申请人做出更错误的预测。出现这种情况的一个原因是,模型的置信度是使用代表性过强的组进行训练的,对于这些代表性不足的组可能不准确。
一旦他们发现了这个问题,麻省理工学院的研究人员开发了两种算法来解决这个问题。使用真实数据集,他们表明,这些算法减少了影响边缘化子群体的性能差异。
麻省理工学院资深作者格雷格·沃内尔(Greg Wornell)说:“归根结底,这是关于如何更智能地处理你交给人类处理的样本。我们不只是将模型的一些广泛错误率降到最低,我们希望确保以智能的方式考虑跨组的错误率。”,电子工程与计算机科学系(EECS)住友工程教授,领导电子研究实验室(RLE)的信号、信息和算法实验室,是MIT-IBM Watson人工智能实验室的成员。
与沃内尔一起发表论文的还有EECS研究生阿卜欣·沙阿(Abhin Shah)和RLE博士后余恒布(Yuheng Bu);MIT-IBM Watson AI实验室的研究人员Joshua Ka Wing Lee SM’17、ScD’21和Subhro Das、Rameswar Panda和Prasanna Sattigeri。这篇论文将在本月的国际机器学习会议上发表。
预测还是不预测
回归是一种估计因变量和自变量之间关系的技术。在机器学习中,回归分析通常用于预测任务,例如根据房屋的特征(卧室数量、平方英尺等)预测房屋的价格。通过选择性回归,机器学习模型可以为每个输入做出两个选择之一鈥攊如果t对自己的决定没有足够的信心,他可以做出预测或放弃预测。
当模型放弃时,它会减少预测样本的比例,即覆盖率。通过仅对其高度自信的输入进行预测,模型的整体性能应该会提高。但这也会放大数据集中存在的偏差,当模型没有来自某些子组的足够数据时,就会出现这种偏差。这可能会导致代表性不足的个人出现错误或糟糕的预测。
麻省理工学院的研究人员旨在确保,随着选择性回归提高模型的整体错误率,每个亚组的性能也会提高。他们称之为单调选择性风险。
Shah说:“为这个特殊问题提出正确的公平概念是一个挑战。但是通过强制执行这个标准,单调选择风险,我们可以确保当你减少覆盖率时,模型在所有亚组中的性能实际上都会变得更好。”。
关注公平
该团队开发了两种神经网络算法,采用这种公平性标准来解决问题。
一种算法保证模型用于进行预测的特征包含数据集中与感兴趣的目标变量相关的敏感属性的所有信息,例如种族和性别。敏感属性是可能不用于决策的功能,通常是由于法律或组织政策。第二种算法采用校准技术,以确保模型对输入进行相同的预测,无论是否向该输入添加任何敏感属性。
研究人员通过将这些算法应用于可用于高风险决策的真实数据集来测试这些算法。一个是保险数据集,用于使用人口统计数据预测向患者收取的年度医疗费用总额;另一个是犯罪数据集,用于利用社会经济信息预测社区暴力犯罪的数量。这两个数据集都包含个人的敏感属性。
当他们在选择性回归的标准机器学习方法上实现算法时,他们能够通过降低每个数据集中少数群体的错误率来减少差异。此外,这在不显著影响总体错误率的情况下完成。
Sattigeri说:“我们看到,如果我们不施加某些约束,在模型真正有信心的情况下,它实际上可能会产生更多错误,这在某些应用程序中可能会非常昂贵,如医疗保健。因此,如果我们扭转趋势,使其更直观,我们将发现许多此类错误。这项工作的主要目标是避免错误在未被发现的情况下悄无声息地发生。”。
Shah说,研究人员计划将其解决方案应用于其他应用,例如预测房价、学生GPA或贷款利率,以查看是否需要为这些任务校准算法。他们还希望探索在模型训练过程中使用不太敏感信息的技术,以避免隐私问题。
他们希望改进选择性回归中的置信度估计,以防止出现模型置信度低但预测正确的情况。萨蒂盖里说,这可以减少人类的工作量,进一步简化决策过程。
本故事由麻省理工学院新闻网(web.MIT.edu/newoffice/)转载,该网站是一个热门网站,涵盖麻省理工学院研究、创新和教学方面的新闻。