一种提高机器学习公平性的方法、电子设备及存储介质技术

技术编号：38664021 阅读：25 留言：0更新日期：2023-09-02 22:45

本发明专利技术公开了一种提高机器学习公平性的方法、电子设备及存储介质，通过基于公平准则的正则项约束父任务的机器学习模型、构建用于有效训练敏感属性学习器的交互式学习框架、使用基于群组的主动学习算法挑选数据集中的少量样本进行敏感属性标注，本发明专利技术通过建模公平准则对敏感属性分类器学习的影响，更有效地实现机器学习模型的公平性，同时使用尽可能少的敏感群体标签，在有限标注预算下训练相近效果的模型，从而使得数据获取的成本大大降低。从而使得数据获取的成本大大降低。从而使得数据获取的成本大大降低。

全部详细技术资料下载

【技术实现步骤摘要】
一种提高机器学习公平性的方法、电子设备及存储介质

[0001]本专利技术涉及机器学习
，尤其是涉及一种使用部分敏感群体标签提高机器学习公平性的方法、电子设备及存储介质。

技术介绍

[0002]近年来，随着人工智能技术不断迅速发展并以多种方式深入影响我们的生活，研究人员开始关注机器学习算法的公平性问题，即模型对不同种群是否会产生偏差性的预测，从而对社会造成各种潜在的危害。它们将不同的公平标准用数学表达式的方法纳入模型训练中，从而利用敏感群体标签约束学习过程以实现模型的公正性。然而，受制于成本、隐私和法律问题等，获取完整的敏感属性信息在现实场景中几乎不可能实现。
[0003]部分研究曾尝试应用半监督学习的技术，以训练准确的敏感属性学习器为目标，在有限的预算内生成一个高精度的伪标签数据集。虽然该方法有效地降低了标注成本，但是其未考虑样本选择的重要性，不同样本可能导致很大的性能差异。此外，它们也未考虑公平准则对敏感属性标注的影响，而将其视为单独的任务，这必然导致标注效率的下降。
[0004]为了在有限标注预算的前提下，高效地利用敏感属性的标签，我们提出了一个基于贝叶斯损失的交互式主动学习算法。该方法利用公平准则的数学特性，对敏感属性学习器进行合理的限制，并根据模型表现选择最有价值的数据，从而在整体上提高机器学习模型的公平性。

技术实现思路

[0005]本专利技术的目的是提供一种使用部分敏感群体标签提高机器学习公平性的方法、电子设备及存储介质，通过建模公平准则对敏感属性分类器学习的影响，更...

【技术保护点】

【技术特征摘要】
1.一种使用部分敏感群体标签提高机器学习公平性的方法，其特征是，该方法包括以下步骤：S1、通过基于公平准则的正则项约束父任务的机器学习模型，以提升机器学习模型预测的公平性；S2、基于贝叶斯公式建模公平准则对于敏感属性学习器的影响，以构建用于有效训练敏感属性学习器的交互式学习框架；S3、使用基于群组的主动学习算法挑选数据集中的少量样本进行敏感属性标注，在有限的预算下获得最好的模型性能。2.根据权利要求1所述的使用部分敏感群体标签提高机器学习公平性的方法，其特征是，所述交互式学习框架由父任务的机器学习模型和敏感属性学习器模型组成，两个模型交互式训练、迭代更新。3.根据权利要求2所述的使用部分敏感群体标签提高机器学习公平性的方法，其特征是，所述父任务的机器学习模型的二分类任务以及其他不同的父任务中，使用公平性指标“人口均等”对父任务的机器学习模型的训练进行约束，表达为：，其中代表模型的预测值，代表种群，约束的出发点为使得父任务的机器学习模型对不同种群预测的正类比例相近，并将该公平性指标成为模型学习的目标函数，从“人口均等”的定义出发，基于数学近似进行推导得到损失项为：，其中表示样本的预测伪标签，且由父任务的机器学习模型得到，表示样本的特征，表示样本的敏感属性预测值，表示敏感属性标签中为0的个数，表示敏感属性标签中1的个数。4.根据权利要求2所述的使用部分敏感群体标签提高机器学习公平性的方法，其特征是，所述基于贝叶斯公式，对原公平准则进行适当的变形和转化，同样从“人口均等”的定义出发，进行数学推导得到损失项为：，其中表示样本的预测伪标签，且由父任务的机器学习模型得到，表示样本的特征，表示样本的敏感属性标签，表示敏感属性标签中为0的个数，表示敏感属性标签中1的个数。5.根据权利要求1所述的使用部分敏感群体标签提高机器学习公平性的方法，其特征是，在步骤...

【专利技术属性】
技术研发人员：何向南，杨泽宇，冯福利，张及之，
申请(专利权)人：数据空间研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人