一种面向机器学习模型的自然公平性测试用例生成方法技术

技术编号:38686366 阅读:46 留言:0更新日期:2023-09-02 22:59
本发明专利技术公开了一种面向机器学习模型的自然公平性测试用例生成方法,通过构造数据集模拟机器学习模型在隐空间中的决策过程,导出近似的代理决策边界。进而,利用模型在决策边界上的不鲁棒性质,设计隐向量候选者探测策略,在代理决策边界附近生成符合自然规律的公平性测试用例,能帮助我们更好地测试机器学习模型在真实场景下的公平性特点,并有助于提高机器学习模型的公平性和可信性。本发明专利技术可以用于结构化数据如表格、非结构化数据如图像场景的自然公平性测试用例生成方法中,具有较好的应用价值和实际效果。用价值和实际效果。用价值和实际效果。

【技术实现步骤摘要】
一种面向机器学习模型的自然公平性测试用例生成方法


[0001]本专利技术涉及一种面向机器学习模型的自然公平性测试用例生成方法,属于机器学习


技术介绍

[0002]作为一种新兴的技术工具,机器学习模型在简历筛选、信用评分和医疗诊断等诸多关键决策领域中得到广泛应用。尽管机器学习模型取得了出色的性能表现,但它也可能在无意中引入社会偏见,这违反了软件设计的公平性要求。最近的研究和实践表明,一些机器学习模型可能在性别等敏感属性上表现出歧视性决策。例如,亚马逊使用的招聘模型对男性候选者表现出强烈的偏好,但对女性候选者的简历给出较低的评分。因此,进行详尽的测试来检测机器学习模型的歧视性行为,并且进一步提高机器学习模型的公平性至关重要,这可以缓解机器学习模型在敏感决策领域应用中的公平性问题。
[0003]为了测试公平性,已有许多研究提出生成违反公平性要求的测试用例,从而揭示机器学习模型的歧视行为。一般来说,现有的研究主要可以分为两类:个人公平和群体公平。个体公平要求对相似的个体做出相似的决定,而群体公平要求对按敏感属性分组的群体给予平等对待。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向机器学习模型的自然公平性测试用例生成方法,其特征在于包括如下步骤:模拟机器学习模型在隐空间上的决策过程,通过在隐空间中随机采样隐向量样本,使用生成对抗网络生成在原始数据输入空间的实例样本,并使用机器学习模型对这些实例样本进行预测,构建隐向量样本与预测标签的辅助数据集,并使用线性超平面近似出在隐空间上的代理决策边界;利用机器学习模型在决策边界上的不鲁棒性质,设计隐向量候选者探测策略,首先通过向量运算求解位置在代理决策边界上的隐向量,之后根据设定的步长控制超参数在其两侧各选取一个候选隐向量,构成一个候选者三元组,并重复指定次数的探测过程以构成候选隐向量集合;使用生成对抗网络对候选隐向量集合进行推导生成,得到待测试样本集合,检验机器学习模型在这些测试样本上的表现;当有一个候选者在候选者三元组中被确认为公平性测试用例,则将其加入公平性测试用例集合,并跳出三元组的循环过程去检验下一个三元组,最终构成的公平性测试用例集合即为生成的自然公平性测试用例。2.如权利要求1所述的面向机器学习模型的自然公平性测试用例生成方法,其特征在于:在真实数据集上训练生成对抗网络学习原始数据分布;在生成对抗网络的隐空间中随机采样一定数量的隐向量样本,作为隐空间中的初始隐向量样本集合;使用生成对抗网络对采样的隐向量集合进行推导过程,生成在原始输入域上的初始实例样本集合;使用机器学习模型对初始实例样本进行预测得到实例样本对应的标签,构建隐向量与标签的辅助数据集;使用线性超平面区分该辅助数据集,用于近似机器学习模型的决策边界。3.如权利要求2所述的面向机器学习模型的自然公平性测试用例生成方法,其特征在于:构造辅助数据集将机器学习模型在原始输入域上的决策空间映射到隐空间上。4.如权利要求2所述的面向机器学习模型的自然公平性测试用例生成方法,其特征在于:在辅助数据集上训练一个支持向量机,拟合机器学习模型的决策边界,形式化表述为:h:w
T
z+b=0其中,w表示该线性超平面的法向量,z代表隐空间中的隐向量,b表示截距。5.如权利要求1所述的面向机器学习模型的自然公平性测试用例生成方法,其特征在于通过如下步骤获取符合自然规律的公平性测试候选隐向量:探测位置处于代理决策边界上的隐向量候选者;探测分别位于代理决策边界两侧的隐向量候选者;生...

【专利技术属性】
技术研发人员:刘祥龙肖宜松刘艾杉
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1