【技术实现步骤摘要】
一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统
[0001]本专利技术涉及一种基于深度强化学习的机器学习模型黑盒公平性测试方法和系统,涉及软件工程与人工智能
技术介绍
[0002]机器学习软件广泛应用于人类现实生活各类决策领域,如招聘、保险、政策预测等。研究人员发现,机器学习软件在实际运行过程中会产生各种不公平的决策行为,造成恶劣的社会影响。因此从软件工程的角度出发,设计高效的公平性测试算法,在机器学习软件交付之前进行充分的公平性测试,尽可能多地发现机器学习软件的歧视实例,成为亟待解决的问题。这里,公平性测试的目标是尽可能多地发现机器学习模型的歧视实例。现有的公平性测试方法主要分为黑盒方法和白盒方法。其中,黑盒方法主要有三种:第一种THEMIS利用对输入空间进行随机采样的方法生成歧视实例,由于输入空间巨大,歧视实例的分布不明确,歧视实例生成效率很低;第二种方法AEQUITAS先随机生成初始歧视实例,通过局部贪心搜索发现其它歧视实例,效率略高于随机生成方法;第三种方法SG利用可解释技术如LIME,学习黑盒 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于深度强化学习的机器学习模型黑盒公平性测试方法,其特征在于,包括以下步骤:构建机器学习模型黑盒公平性测试环境;强化学习智能体与构建的机器学习模型黑盒公平性测试环境进行交互,利用深度强化学习算法学习最优歧视实例生成策略;统计根据学习的最优歧视实例生成策略生成的歧视实例,得到机器学习模型黑盒公平性测试结果。2.根据权利要求1所述的方法,其特征在于,所述机器学习模型黑盒公平性测试环境,包括测试数据生成子模块、被测黑盒机器学习模型和奖励计算子模块;所述测试数据生成子模块从训练数据中随机采样一个数据作为初始环境状态s0;当前环境状态s下,接收强化学习智能体输入的动作α,将动作α分解为维度index和偏移量b,将状态s对应的维度index的特征值加上偏移量b,生成下一个状态s
′
;状态s
′
作为测试数据输入所述被测黑盒机器学习模型,判断在状态s
′
下是否产生个体公平性歧视;将状态s
′
和个体公平性歧视的判断结果输入所述奖励计算子模块,将状态s
′
和奖励返回给强化学习智能体。3.根据权利要求2所述的方法,其特征在于,所述动作α是对状态s在维度index上的特定干扰,从而得到新的状态;所述维度index对应于非保护特征a
index
∈A\P,其中A是被测黑盒机器学习模型的输入特征集合,为公平性测试指定的非空保护特征集合,“\”是集合差运算。4.根据权利要求3所述的方法,其特征在于,所述判断在状态s
′
下是否产生个体公平性歧视,包括:令其中1≤p1<p2<
…
<p
m
<n=|A|,对每个保护特征a
p
∈P,置换状态s
′
在维度p上的特征值为特征a
p
允许的所有可能值,从而得到一系列测试数据其中为保护特征的输入空间;将测试数据逐一输入被测黑盒机器学习模型获得模型输出,若出现不同的输出结果,则判定被测黑盒机器学习模型在状态s
技术研发人员:谢文涛,吴鹏,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。