实例级别和组级别预测度量的后期改进制造技术

技术编号:29419321 阅读:12 留言:0更新日期:2021-07-23 23:13
一种用于实例级别和组级别预测度量的后期改进的后处理方法、系统和计算机程序产品,包括训练偏差检测器,所述偏差检测器学习检测样本,所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差,在运行时样本上应用所述偏差检测器,以在所述运行时样本中选择具有大于所述预定个体偏差阈值偏差值的偏差的偏差样本,以及对所述偏差样本建议去偏差预测。

【技术实现步骤摘要】
【国外来华专利技术】实例级别和组级别预测度量的后期改进
技术介绍
本专利技术总体上涉及一种后处理方法,并且更具体地但并非通过限制的方式,本专利技术涉及一种经由个体偏差检测器在后处理中增加个体公平性和组公平性的系统、方法和记录介质,该个体偏差检测器用于在旨对在改善不同影响的组公平性测量的偏差缓解算法中的数据样本优先化。常规地,用于增加偏差分类器的预测的公平性的后处理方法仅解决组公平性。公平性、非辨别性和不想要的偏见一直是人类决策方面的担忧,但日益受到关注,因为历史人类决策现在正被用作诸如雇佣、借贷和犯罪司法之类的高风险应用中的机器学习模型的训练数据。在没有偏差缓解的情况下,根据这样的决定训练的模型一致延续并且缩放人类偏差,并且由此是不安全且不值得信任的。在机器学习和数据挖掘文献中关于算法公平性的活动近来激增,其中基本原理使用检测、估计理论和信息理论来定义。常规地,在决策中存在公平性的两个主要概念:组公平性和个体公平性。在其最广泛的意义上,组公平性将群体划分为由被保护属性定义的组并且寻求一些统计度量使在组之间是平等的。存在涉及不同统计度量的许多不同的组公平性概念,一个这样的概念是不同的影响。在最广泛的意义上,个体公平性寻求类似个体被类似地对待。检查组公平性是统计度量的直接计算,但是当存在具有许多值的许多受保护属性并且使用模型对样本进行评分是昂贵的时,检查个体公平性就涉及更多的运算。最近基于不等式索引提出了针对组和个体公平性的统一度量。机器学习流水线包含三个可能的干预点以缓解不想要的偏差:训练数据、学习过程、和输出预测,具有三个相应类别的偏差缓解算法:预处理、处理中和后处理。后处理算法的优点在于它们不需要访问训练过程并且因此适合于运行时环境。此外,后处理算法以黑匣子方式操作,这意味着它们不需要访问模型的内部、它们的派生等,并且因此适用于任何机器学习模型。常规上,绝大多数的偏差减轻算法解决了组公平性,但少数解决个体公平性。一些预处理算法解决组和个体公平性。所有现有的后处理算法仅用于组公平性。因此,在本领域中需要考虑组和个体公平性的后处理偏差减轻技术。此外,此项技术中需要一种在训练偏差减轻算法时不需要验证样本中的任何真实类别标记的技术。因此,本领域需要可以适用于创建有效解释方法的攻击方法。
技术实现思路
后处理算法的一般方法是获取样本子集并适当地改变其预测标记以满足组公平性要求。关于后处理的有趣的观察是可改变任何样品以实现组公平性要求,因为度量是期望的。鉴于本领域中的问题,专利技术人选择具有或可能具有个体公平性问题的样品,并且以这种方式能够一起解决组和个体公平性。解决本领域中的问题的创造性方法的起点是个体偏差检测器,其找到当受保护属性改变时其模型预测改变的样本,保持所有其他特征不变。尽管在该技术中制定了效率的大的集合,但它仍然是计算上昂贵的。为了克服不能连续运行检测器的限制,本专利技术在小的点集合上检查个体公平性并且通过训练应用于新样本的分类器从它们概括。具有可能的个体偏差的样本是针对预测标记的变化考虑的样本。通过这样做,本专利技术改进现有技术从专注于不确定性到专注于个体偏差。在一个示例性实施例中,本专利技术可以提供一种用于实例级别和组级别预测度量的后期改进的后处理计算机实施的方法,所述后处理方法包括:训练偏差检测器,所述偏差检测器学习检测样本,所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差,在运行时样本上应用所述偏差检测器,以在所述运行时样本中选择具有大于所述预定个体偏差阈值的个体偏差的偏差样本,以及对所述偏差样本建议去偏差预测。一个或多个其他示例性实施例包括计算机程序产品和系统。本专利技术的其他细节和实施例将在下面进行描述,使得可以更好地理解本专利技术对现有技术的贡献。尽管如此,本专利技术在其应用方面不限于在说明书中阐述的或在附图中示出的此类细节、措辞、术语、图示和/或安排。而是,本专利技术能够具有除了所描述的那些实施例之外的实施例并且能够以各种方式实践和实施,并且不应被视为是限制性的。这样,本领域的技术人员将认识到,本披露所基于的概念可以容易地用作设计其他结构、方法和系统以用于实现本专利技术的若干目的的基础。因此,重要的是权利要求被认为包括这样的等同构造,只要它们不脱离本专利技术的精神和范围。附图说明参照附图,从以下本专利技术的示范性实施例的详细描述中将更好地理解本专利技术的方面,在附图中图1示例性地示出了后处理方法100的高级流程图;图2示例性地描绘了根据本专利技术的实施例的方法100的训练阶段;图3示例性地描述了根据本专利技术的实施例的方法100的运行时阶段;图4示例性地描绘了根据本专利技术的实施例的方法100的第一算法;图5示例性地描述了根据本专利技术的实施例的方法100的第一结果;图6示例性地描述了根据本专利技术的实施例的方法100的第二结果;图7示例性地描述了根据本专利技术的实施例的方法100的第三结果;图8示例性地描述了根据本专利技术的实施例的方法100的第四结果;图9描绘了根据本专利技术的实施例的云计算节点10;图10描绘了根据本专利技术的实施例的云计算环境50;以及图11描绘了根据本专利技术的实施例的抽象模型层。具体实施方式现在将参照图1-11描述本专利技术,其中贯穿全文,相同的参考标号指代相同的部件。应强调的是,根据惯例,附图的不同特征不一定是按比例的。相反,为了清楚起见,各种特征的尺寸可以任意扩大或缩小。现在参见图1中所描绘的示例,后处理方法100包括适合于运行时环境的各个步骤,这些步骤是适用于任何概率性机器学习模型(或模型的融合)的黑匣子方法,并且还改善了个体公平性度量和组公平性度量两者。如至少图9所示,根据本专利技术的实施例的计算机系统12的一个或多个计算机可以包括存储器28,该存储器28具有存储在存储系统中以执行图1的步骤的指令。尽管一个或多个实施例(参见例如图9-11)可在云环境50(参见例如图10)中实现,但仍要理解,本专利技术可在云环境之外实现。总体上参见图1-8,本专利技术考虑具有特征X∈X、类别保护属性D∈D,以及,类别标记Y∈Y的监督分类问题。给定一组训练样本{(x1,d1,y1),...,(xn,dn,yn)},本专利技术学习出分类器(即,步骤101):应注意,‘分类器’和‘偏差检测器’可互换地使用。为了便于说明,考虑标量二进制受保护属性(即,D={0,1})和二进制分类问题(即,Y={0,1})。值d=1被设置为对应于‘特权组’(例如,在美国的犯罪罪犯应用中的第一组),并且d=0对应于‘非特权组’(例如,在美国的犯罪罪犯应用中的第二组,与第一组相比,其接收负面处理,或者在接收贷款或未接收贷款的商业环境中)。值y=1被设置为对应于‘有利结果’(例如,接收贷款或未被阻止),并且y=0对应于‘不利结果’(例如,未接收贷款或被阻止)。基于上下文,概率性二进制分类器还与具有阈值{0,1}的连续输出得分一起使用。然而,本专利技术可扩展到多个受保护属性和多类结果的情况。实际上,多个类可具有多个本文档来自技高网
...

【技术保护点】
1.一种用于实例级别和组级别预测度量的后期改进的后处理计算机实施的方法,所述后处理方法包括:/n训练偏差检测器,所述偏差检测器学习检测样本,所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差;/n在运行时,在运行时样本上应用所述偏差检测器,以在所述运行时样本中选择具有大于所述预定个体偏差阈值的个体偏差的偏差样本;以及/n在运行时对所述偏差样本建议去偏差预测。/n

【技术特征摘要】
【国外来华专利技术】20181210 US 16/214,7031.一种用于实例级别和组级别预测度量的后期改进的后处理计算机实施的方法,所述后处理方法包括:
训练偏差检测器,所述偏差检测器学习检测样本,所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差;
在运行时,在运行时样本上应用所述偏差检测器,以在所述运行时样本中选择具有大于所述预定个体偏差阈值的个体偏差的偏差样本;以及
在运行时对所述偏差样本建议去偏差预测。


2.如权利要求1所述的后处理计算机实现方法,其中,所述应用和所述建议在后处理中操作,并且使用用于补救的个体偏差来针对所述偏差样本,以便基于个体公平度量和组公平度量两者来改变所述偏差样本的偏差。


3.如权利要求1所述的后处理计算机实现方法,其中,通过以下步骤来训练所述个体偏差检测器:
扰动具有所述样本的训练集中的受保护属性;
对于所述训练集中的每个样本点,在多个扰动之后获得平均个体偏差;
获得针对有利类别的个体偏差的差值;
对于非特权组,将所述个体偏差设置为所述平均个体偏差;以及
按照所述个体偏差的差别的降序将所述训练集中的样本排序到所述有利类别。


4.如权利要求1所述的后处理计算机实现方法,其中,通过以下步骤执行所述建议所述去偏差预测:
扰动训练集中的受保护属性;
通过客户模型运行所述扰动结果;
挑选对通过所述客户模型运行的所述扰动结果的最可能的预测;以及
如果非特权组成员的所述扰动结果属于所述有利类别,则将所述非特权组成员的所述扰动结果改变为所述最可能的预测。


5.如权利要求1所述的后处理计算机实现方法,其中,由所述偏差检测器预测的非特权分组中的检测的个体偏差的样本被所述建议优先用于校正,
其中,所述建议执行校正以通过运行经由客户模型的所述扰动样本并挑选最有可能的预测来修订所述偏差,并且
其中,用户决定是选择所述偏差的原始值还是所述建议的去偏差的预测。


6.如权利要求5所述的后处理计算机实现方法,其中,所述扰动对受保护属性执行,并且确定汇总结果。


7.如权利要求5所述的后处理计算机实施的方法,其中多个类别中的结果通过以下中的一者来选择:
在多个扰动之后查看每个类别的汇总预测;以及
在多个扰动之后找到最有可能的预测结果。


8.如权利要求1所述的后处理计算机实施的方法,其中,在所述训练期间,通过以下步骤来训练所述偏差检测器:
实施个体偏差检查器,所述个体偏差检查器对非特权组样本的有效载荷数据中的受保护属性进行扰动;
通过找到所述扰动的有利结果的概率与原始数据之间的差来计算非特权组样本的个体偏差得分;
标记具有大于所述预定个体偏差阈值的所述个体偏差的所述非特权组样本;以及
训练所述偏差检测器以在所述标记的样本与未标记的样本之间进行区分。


9.如权利要求1所述的后处理计算机实施的方法,其中,在所述运行时期间:
所述应用对所述运行时的每个非特权组样本应用所述偏差检测器以计算所述个体偏差的可能性;
通过扰动受保护属性并且在扰动之后检查该结果来进一步测试所述个体偏差样本;以及
如果所述扰动之后的结果不同于原始结果,则向仲裁器建议将个体偏差样本作为去偏差预测,所述仲裁器能够在所述偏差的原始值与去偏差预测之间进行选择。


10.如权利要求1所述的后处理计算机实施的方法,所述方法在云计算环境中实施。


11.一种用于实例级别和组级别预测度量的后期改进的后处理计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有随其体现的程序指令,所述程序指令可由计算机执行以促使所述计算机执行:
训练偏差检测器,所述偏差检测器学习检测样本,所述样本具有大于具有组偏差约束的预定个体偏差阈值的个体偏差;
在运行时,在运行时样...

【专利技术属性】
技术研发人员:M·A·巴黑得P·K·洛希亚K·纳泰萨拉马穆蒂R·普利D·萨哈K·R·瓦什奈伊
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1