当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于对抗性扰动的深度学习模型公平性提升系统及方法技术方案

技术编号:33275748 阅读:87 留言:0更新日期:2022-04-30 23:34
本发明专利技术公开了一种基于对抗性扰动的深度学习模型公平性提升系统及方法,包含部署模型、扰动生成器和判别器,部署模型包括特征提取器和标签预测器,扰动生成器与特征提取器相连,本发明专利技术通过对输入图像进行修改,防止部署模型提取到数据的敏感特征,在不改变模型的情况下提升公平性。本发明专利技术对部署模型的输入数据进行处理,不需要改动深度学习模型。基于对抗性扰动来提升模型公平性,并且设计了相应的扰动生成器和判别器,使用判别器捕捉公平性相关的敏感属性信息,指导扰动生成器的训练优化,产生对抗性扰动隐藏数据敏感属性信息,并保留目标任务相关信息,避免让模型在特征提取过程中抽取到输入数据的敏感信息,从而提升预测公平性。平性。平性。

【技术实现步骤摘要】
一种基于对抗性扰动的深度学习模型公平性提升系统及方法


[0001]本专利技术涉及可信人工智能(AI)领域,具体涉及一种基于对抗性扰动的深度学习模型公平性提升系统及方法。

技术介绍

[0002]近年来,深度神经网络在多个领域展现出卓越的性能,例如图像处理、自然语言处理、语音识别等等。尽管人工智能技术应用的普及促进了各个领域变革,给人类生活带来便捷和改善,研究发现,现有的部分人工智能系统存在伦理风险,它们含有对特定群体的偏见和歧视,甚至将弱势人群置于更为不利的地位。因此,缓解深度学习模型的偏见,提升模型决策的公平性,是确保人工智能系统可靠应用的重要前提。深度学习模型通常从数据中进行学习,若不同群体数据的分布不均衡,目标任务标签与敏感属性的标签存在虚假的统计关联,会导致模型学习到这种虚假关联,将预测的目标任务标签与敏感属性的标签关联起来,从而产生对特定群体的偏见。现有提升深度学习模型公平性的技术,本质上需要修改已经部署的模型来防止模型学习到虚假关联以消除对特定群体的偏见,因而极大限制了这些提升模型公平性机制的现实应用。

技术实现思路

[0003]针对现有技术需要修改部署的深度学习模型的不足,本专利技术提供了一种基于对抗性扰动的深度学习模型公平性提升系统及方法,在不改变深度学习模型的情况下提升公平性。
[0004]为了实现上述目的,本专利技术是通过以下技术方案来实现的:本专利技术公开了一种基于对抗性扰动的深度学习模型公平性提升系统,包含部署模型、扰动生成器和判别器,部署模型包括特征提取器和标签预测器,扰动生成器与特征提取器相连,特征提取器分别连接标签预测器与判别器,特征提取器输入的为图像,图像经过特征提取器得到隐空间表示,隐空间表示输入标签预测器后输出为目标标签的预测结果,隐空间表示输入判别器后输出为对图像敏感属性的预测结果。
[0005]作为进一步地改进,本专利技术所述的扰动生成器的输入为图像,输出为对抗性扰动,扰动值与输入图像相加后输入到特征提取器中。
[0006]本专利技术还公开了一种基于对抗性扰动的深度学习模型公平性提升方法,包含如下步骤:1)使用扰动生成器对图像添加对抗性扰动,将扰动后图像输入部署模型的特征特征提取器,由特征提取器输出图像的隐空间表示,隐空间表示输入标签预测器后获得目标标签的预测结果;2)衡量扰动后的图像中包含的敏感属性的信息,隐空间表示输入判别器后获得对图像敏感属性的预测结果,训练判别器从隐空间表示中预测敏感属性,并对判别器进行更新;
3)对扰动生成器进行更新,更好地生成对抗性扰动,欺骗判别器,使得加入对抗性扰动后的图像在隐空间表示中尽可能不包含敏感属性的信息,同时使得目标标签预测器的预测结果尽可能准确;4)重复步骤2)与步骤3)直到生成器能较好地欺骗判别器,且目标标签预测器准确率较高,将此时的扰动生成器作为公平性提升模块集成到部署模型数据预处理环节中,为输入图像添加对抗性扰动,提升公平性。
[0007]作为进一步地改进,本专利技术所述的部署模型表示为,其中为特征提取器,为目标标签预测器,输入图像为,敏感属性为,目标标签为。
[0008]作为进一步地改进,本专利技术所述的步骤1)中,使用扰动生成器对图像添加对抗性扰动,扰动后的图像为,扰动满足范数限制,将扰动后的图像输入部署模型,部署模型的特征提取器输出图像的隐空间表示,隐空间表示输入标签预测器后获得目标标签的预测结果。
[0009]作为进一步地改进,本专利技术所述的步骤2) 中,通过更新,使得判别器能够准确地从隐空间表示中捕捉敏感属性的信息,的损失函数为:其中表示交叉熵,扰动后数据的隐空间表示为,敏感属性判别器的输出为,表示真实的敏感属性。
[0010]作为进一步地改进,本专利技术所述的步骤3)中,增大对扰动图像预测的熵,让在扰动样本上做出随机猜测,熵的损失表示为:其中,表示熵,至此,生成器用于提升公平性的总损失表示为,是一个较小的值,控制熵约束项的权重。
[0011]作为进一步地改进,本专利技术所述的步骤3)中,除了负责公平性感知的外,还需在隐空间表示中保留目标标签的信息,保持模型在目标标签预测上的表现,需要负责模型准确率的损失项:其中表示交叉熵,表示模型的目标标签预测器的输出结果,在更新的过程中,通过增加,同时减小,欺骗判别器,并保持目标标签预测的准确率;和的平衡由参数控制,越高越能保持主任务准确率,越低越能提升公平性,的损失函数表示为,总的损失函数设计包含负责公平性感知的损失和保持准确率的损失,使得扰动生成器学会生成符合要求的对抗性扰动,在保持目标标签预测准确率的同时,提升模型的公平性:
作为进一步地改进,本专利技术所述的步骤4)中,扰动生成器与判别器进行极小

极大的博弈,直到生成器能较好地欺骗判别器,且目标标签预测器准确率较高,此时将生成器部署为模型的一个数据预处理模块,自适应地为输入数据产生扰动。
[0012]作为进一步地改进,本专利技术所述的极小

极大博弈过程中,判别器最大化从特征空间中预测敏感属性的能力,扰动生成器则尝试尽可能地欺骗,同时让能够预测出扰动后样本的目标标签,该过程目标函数可以形式化为:动后样本的目标标签,该过程目标函数可以形式化为:动后样本的目标标签,该过程目标函数可以形式化为:其中,目标函数中需要更新的参数为和,更新以最大化(max)上述目标函数,更新最小化(min)上述目标函数,目标函数的约束项表示生成器对输入图像施加扰动,扰动后的图像为,扰动满足范数限制,扰动后数据获得的隐空间表示为。
[0013]本专利技术的有益技术效果如下:本专利技术技术方案中的步骤1),首先,对图像添加对抗性扰动,来提升模型的公平性;其次,引入扰动生成器来生成对抗性扰动,使得在完成扰动生成器的训练后,该生成器能对任意的图像生成对抗性扰动,提升模型的公平性,并不需要知道图像的敏感属性和目标标签。
[0014]本专利技术技术方案中的步骤2)中,在欺骗判别器的过程中,除了交叉熵,还使用了熵这一项,使得产生的对抗性扰动,能够增大对扰动图像预测的熵,防止模型提取到敏感属性信息,而不是提取到相反敏感属性的信息,例如输入图像是男性,希望模型提取不到性别信息,而不是扰动后相反地提取到女性的信息。
[0015]本专利技术通过对输入图像进行修改,防止部署模型提取到数据的敏感特征,因此可以在不改变模型的情况下提升公平性。本专利技术对部署模型的输入数据进行处理,不需要改动深度学习模型。本专利技术基于对抗性扰动来提升模型公平性,并且设计了相应的扰动生成器和判别器,扰动生成器直接用于产生对抗性扰动,判别器辅助扰动生成器训练。使用判别器捕捉公平性相关的敏感属性信息,指导扰动生成器的训练优化,产生对抗性扰动隐藏数据敏感属性信息,并保留目标任务相关信息,避免让模型在特征提取过程中抽取到输入数据的敏感信息,从而提升预测公平性。
附图说明
[0016]图1是基于对抗性扰动的深度学习模型公平性提升系统框架图。
具体实施方式
[0017]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗性扰动的深度学习模型公平性提升系统,其特征在于,包含部署模型、扰动生成器和判别器,所述的部署模型包括特征提取器和标签预测器,所述的扰动生成器与特征提取器相连,所述的特征提取器分别连接标签预测器与判别器,特征提取器输入的为图像,所述的图像经过特征提取器得到隐空间表示,所述的隐空间表示输入标签预测器后输出为目标标签的预测结果,所述的隐空间表示输入判别器后输出为对图像敏感属性的预测结果。2.根据权利要求1所述的基于对抗性扰动的深度学习模型公平性提升系统,其特征在于,所述的扰动生成器的输入为图像,输出为对抗性扰动,扰动值与输入图像相加后输入到特征提取器中。3.一种基于对抗性扰动的深度学习模型公平性提升方法,其特征在于,包含如下步骤:1)使用扰动生成器对图像添加对抗性扰动,将扰动后图像输入部署模型的特征特征提取器,由特征提取器输出图像的隐空间表示,隐空间表示输入标签预测器后获得目标标签的预测结果;2)衡量扰动后的图像中包含的敏感属性的信息,隐空间表示输入判别器后获得对图像敏感属性的预测结果,训练判别器从隐空间表示中预测敏感属性,并对判别器进行更新;3)对扰动生成器进行更新,更好地生成对抗性扰动,欺骗判别器,使得加入对抗性扰动后的图像在隐空间表示中尽可能不包含敏感属性的信息,同时使得目标标签预测器的预测结果尽可能准确;4)重复步骤2)与步骤3)直到生成器能较好地欺骗判别器,且目标标签预测器准确率较高,将此时的扰动生成器作为公平性提升模块集成到部署模型数据预处理环节中,为输入图像添加对抗性扰动,提升公平性。4.如权利要求3所述的基于对抗性扰动的深度学习模型公平性提升方法,其特征在于,部署模型表示为,其中为特征提取器,为目标标签预测器,输入图像为,敏感属性为,目标标签为。5.如权利要求4所述的基于对抗性扰动的深度学习模型公平性提升方法,其特征在于,所述的步骤1)中,使用扰动生成器对图像添加对抗性扰动,扰动后的图像为,扰动满足范数限制,将扰动后的图像输入部署模型,部署模型的特征提取器输出图像的隐空间表示,隐空间表示输入标签预测器后获得目标标签的预测结果。6.如权利要求4所...

【专利技术属性】
技术研发人员:王志波董小威任奎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1