【技术实现步骤摘要】
一种基于对抗性扰动的深度学习模型公平性提升系统及方法
[0001]本专利技术涉及可信人工智能(AI)领域,具体涉及一种基于对抗性扰动的深度学习模型公平性提升系统及方法。
技术介绍
[0002]近年来,深度神经网络在多个领域展现出卓越的性能,例如图像处理、自然语言处理、语音识别等等。尽管人工智能技术应用的普及促进了各个领域变革,给人类生活带来便捷和改善,研究发现,现有的部分人工智能系统存在伦理风险,它们含有对特定群体的偏见和歧视,甚至将弱势人群置于更为不利的地位。因此,缓解深度学习模型的偏见,提升模型决策的公平性,是确保人工智能系统可靠应用的重要前提。深度学习模型通常从数据中进行学习,若不同群体数据的分布不均衡,目标任务标签与敏感属性的标签存在虚假的统计关联,会导致模型学习到这种虚假关联,将预测的目标任务标签与敏感属性的标签关联起来,从而产生对特定群体的偏见。现有提升深度学习模型公平性的技术,本质上需要修改已经部署的模型来防止模型学习到虚假关联以消除对特定群体的偏见,因而极大限制了这些提升模型公平性机制的现实应用。
专 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗性扰动的深度学习模型公平性提升系统,其特征在于,包含部署模型、扰动生成器和判别器,所述的部署模型包括特征提取器和标签预测器,所述的扰动生成器与特征提取器相连,所述的特征提取器分别连接标签预测器与判别器,特征提取器输入的为图像,所述的图像经过特征提取器得到隐空间表示,所述的隐空间表示输入标签预测器后输出为目标标签的预测结果,所述的隐空间表示输入判别器后输出为对图像敏感属性的预测结果。2.根据权利要求1所述的基于对抗性扰动的深度学习模型公平性提升系统,其特征在于,所述的扰动生成器的输入为图像,输出为对抗性扰动,扰动值与输入图像相加后输入到特征提取器中。3.一种基于对抗性扰动的深度学习模型公平性提升方法,其特征在于,包含如下步骤:1)使用扰动生成器对图像添加对抗性扰动,将扰动后图像输入部署模型的特征特征提取器,由特征提取器输出图像的隐空间表示,隐空间表示输入标签预测器后获得目标标签的预测结果;2)衡量扰动后的图像中包含的敏感属性的信息,隐空间表示输入判别器后获得对图像敏感属性的预测结果,训练判别器从隐空间表示中预测敏感属性,并对判别器进行更新;3)对扰动生成器进行更新,更好地生成对抗性扰动,欺骗判别器,使得加入对抗性扰动后的图像在隐空间表示中尽可能不包含敏感属性的信息,同时使得目标标签预测器的预测结果尽可能准确;4)重复步骤2)与步骤3)直到生成器能较好地欺骗判别器,且目标标签预测器准确率较高,将此时的扰动生成器作为公平性提升模块集成到部署模型数据预处理环节中,为输入图像添加对抗性扰动,提升公平性。4.如权利要求3所述的基于对抗性扰动的深度学习模型公平性提升方法,其特征在于,部署模型表示为,其中为特征提取器,为目标标签预测器,输入图像为,敏感属性为,目标标签为。5.如权利要求4所述的基于对抗性扰动的深度学习模型公平性提升方法,其特征在于,所述的步骤1)中,使用扰动生成器对图像添加对抗性扰动,扰动后的图像为,扰动满足范数限制,将扰动后的图像输入部署模型,部署模型的特征提取器输出图像的隐空间表示,隐空间表示输入标签预测器后获得目标标签的预测结果。6.如权利要求4所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。