实例级别和组级别预测度量的后期改进制造技术

技术编号：29419321 阅读：12 留言：0更新日期：2021-07-23 23:13

一种用于实例级别和组级别预测度量的后期改进的后处理方法、系统和计算机程序产品，包括训练偏差检测器，所述偏差检测器学习检测样本，所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差，在运行时样本上应用所述偏差检测器，以在所述运行时样本中选择具有大于所述预定个体偏差阈值偏差值的偏差的偏差样本，以及对所述偏差样本建议去偏差预测。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】实例级别和组级别预测度量的后期改进
技术介绍
本专利技术总体上涉及一种后处理方法，并且更具体地但并非通过限制的方式，本专利技术涉及一种经由个体偏差检测器在后处理中增加个体公平性和组公平性的系统、方法和记录介质，该个体偏差检测器用于在旨对在改善不同影响的组公平性测量的偏差缓解算法中的数据样本优先化。常规地，用于增加偏差分类器的预测的公平性的后处理方法仅解决组公平性。公平性、非辨别性和不想要的偏见一直是人类决策方面的担忧，但日益受到关注，因为历史人类决策现在正被用作诸如雇佣、借贷和犯罪司法之类的高风险应用中的机器学习模型的训练数据。在没有偏差缓解的情况下，根据这样的决定训练的模型一致延续并且缩放人类偏差，并且由此是不安全且不值得信任的。在机器学习和数据挖掘文献中关于算法公平性的活动近来激增，其中基本原理使用检测、估计理论和信息理论来定义。常规地，在决策中存在公平性的两个主要概念：组公平性和个体公平性。在其最广泛的意义上，组公平性将群体划分为由被保护属性定义的组并且寻求一些统计度量使在组之间是平等的。存在涉及不同统计度量的许多不同的组公平性概念，一个这样的概念是不同的影响。在最广泛的意义上，个体公平性寻求类似个体被类似地对待。检查组公平性是统计度量的直接计算，但是当存在具有许多值的许多受保护属性并且使用模型对样本进行评分是昂贵的时，检查个体公平性就涉及更多的运算。最近基于不等式索引提出了针对组和个体公平性的统一度量。机器学习流水线包含三个可能的干预点以缓解不想要的偏差：训练数据、学习过程、和输出预测，具有三个相应类别的偏差缓解算...

【技术保护点】
1.一种用于实例级别和组级别预测度量的后期改进的后处理计算机实施的方法，所述后处理方法包括：/n训练偏差检测器，所述偏差检测器学习检测样本，所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差；/n在运行时，在运行时样本上应用所述偏差检测器，以在所述运行时样本中选择具有大于所述预定个体偏差阈值的个体偏差的偏差样本；以及/n在运行时对所述偏差样本建议去偏差预测。/n

【技术特征摘要】
【国外来华专利技术】20181210 US 16/214,7031.一种用于实例级别和组级别预测度量的后期改进的后处理计算机实施的方法，所述后处理方法包括：
训练偏差检测器，所述偏差检测器学习检测样本，所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差；
在运行时，在运行时样本上应用所述偏差检测器，以在所述运行时样本中选择具有大于所述预定个体偏差阈值的个体偏差的偏差样本；以及
在运行时对所述偏差样本建议去偏差预测。

2.如权利要求1所述的后处理计算机实现方法，其中，所述应用和所述建议在后处理中操作，并且使用用于补救的个体偏差来针对所述偏差样本，以便基于个体公平度量和组公平度量两者来改变所述偏差样本的偏差。

3.如权利要求1所述的后处理计算机实现方法，其中，通过以下步骤来训练所述个体偏差检测器：
扰动具有所述样本的训练集中的受保护属性；
对于所述训练集中的每个样本点，在多个扰动之后获得平均个体偏差；
获得针对有利类别的个体偏差的差值；
对于非特权组，将所述个体偏差设置为所述平均个体偏差；以及
按照所述个体偏差的差别的降序将所述训练集中的样本排序到所述有利类别。

4.如权利要求1所述的后处理计算机实现方法，其中，通过以下步骤执行所述建议所述去偏差预测：
扰动训练集中的受保护属性；
通过客户模型运行所述扰动结果；
挑选对通过所述客户模型运行的所述扰动结果的最可能的预测；以及
如果非特权组成员的所述扰动结果属于所述有利类别，则将所述非特权组成员的所述扰动结果改变为所述最可能的预测。

5.如权利要求1所述的后处理计算机实现方法，其中，由所述偏差检测器预测的非特权分组中的检测的个体偏差的样本被所述建议优先用于校正，
其中，所述建议执行校正以通过运行经由客户模型的所述扰动样本并挑选最有可能的预测来修订所述偏差，并且
其中，用户决定是选择所述偏差的原始值还是所述建议的去偏差的预测。

6.如权利要求5所述的后处理计算机实现方法，其中，所述扰动对受保护属性执行，并且确定汇总结果。

7.如权利要求5所述的后处理计算机实施的方法，其中多个类别中的结果通过以下中的一者来选择：
在多个扰动之后查看每个类别的汇总预测；以及
在多个扰动之后找到最有可能的预测结果。

8.如权利要求1所述的后处理计算机实施的方法，其中，在所述训练期间，通过以下步骤来训练所述偏差检测器：
实施个体偏差检查器，所述个体偏差检查器对非特权组样本的有效载荷数据中的受保护属性进行扰动；
通过找到所述扰动的有利结果的概率与原始数据之间的差来计算非特权组样本的个体偏差得分；
标记具有大于所述预定个体偏差阈值的所述个体偏差的所述非特权组样本；以及
训练所述偏差检测器以在所述标记的样本与未标记的样本之间进行区分。

9.如权利要求1所述的后处理计算机实施的方法，其中，在所述运行时期间：
所述应用对所述运行时的每个非特权组样本应用所述偏差检测器以计算所述个体偏差的可能性；
通过扰动受保护属性并且在扰动之后检查该结果来进一步测试所述个体偏差样本；以及
如果所述扰动之后的结果不同于原始结果，则向仲裁器建议将个体偏差样本作为去偏差预测，所述仲裁器能够在所述偏差的原始值与去偏差预测之间进行选择。

10.如权利要求1所述的后处理计算机实施的方法，所述方法在云计算环境中实施。

11.一种用于实例级别和组级别预测度量的后期改进的后处理计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其体现的程序指令，所述程序指令可由计算机执行以促使所述计算机执行：
训练偏差检测器，所述偏差检测器学习检测样本，所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差；
在运行时，在运行时样...

【专利技术属性】
技术研发人员：M·A·巴黑得，P·K·洛希亚，K·纳泰萨拉马穆蒂，R·普利，D·萨哈，K·R·瓦什奈伊，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人