一种提高机器学习公平性的方法、电子设备及存储介质技术

技术编号:38664021 阅读:25 留言:0更新日期:2023-09-02 22:45
本发明专利技术公开了一种提高机器学习公平性的方法、电子设备及存储介质,通过基于公平准则的正则项约束父任务的机器学习模型、构建用于有效训练敏感属性学习器的交互式学习框架、使用基于群组的主动学习算法挑选数据集中的少量样本进行敏感属性标注,本发明专利技术通过建模公平准则对敏感属性分类器学习的影响,更有效地实现机器学习模型的公平性,同时使用尽可能少的敏感群体标签,在有限标注预算下训练相近效果的模型,从而使得数据获取的成本大大降低。从而使得数据获取的成本大大降低。从而使得数据获取的成本大大降低。

【技术实现步骤摘要】
一种提高机器学习公平性的方法、电子设备及存储介质


[0001]本专利技术涉及机器学习
,尤其是涉及一种使用部分敏感群体标签提高机器学习公平性的方法、电子设备及存储介质。

技术介绍

[0002]近年来,随着人工智能技术不断迅速发展并以多种方式深入影响我们的生活,研究人员开始关注机器学习算法的公平性问题,即模型对不同种群是否会产生偏差性的预测,从而对社会造成各种潜在的危害。它们将不同的公平标准用数学表达式的方法纳入模型训练中,从而利用敏感群体标签约束学习过程以实现模型的公正性。然而,受制于成本、隐私和法律问题等,获取完整的敏感属性信息在现实场景中几乎不可能实现。
[0003]部分研究曾尝试应用半监督学习的技术,以训练准确的敏感属性学习器为目标,在有限的预算内生成一个高精度的伪标签数据集。虽然该方法有效地降低了标注成本,但是其未考虑样本选择的重要性,不同样本可能导致很大的性能差异。此外,它们也未考虑公平准则对敏感属性标注的影响,而将其视为单独的任务,这必然导致标注效率的下降。
[0004]为了在有限标注预算的前提下,高效地利用敏感属性的标签,我们提出了一个基于贝叶斯损失的交互式主动学习算法。该方法利用公平准则的数学特性,对敏感属性学习器进行合理的限制,并根据模型表现选择最有价值的数据,从而在整体上提高机器学习模型的公平性。

技术实现思路

[0005]本专利技术的目的是提供一种使用部分敏感群体标签提高机器学习公平性的方法、电子设备及存储介质,通过建模公平准则对敏感属性分类器学习的影响,更有效地实现机器学习模型的公平性,同时使用尽可能少的敏感群体标签,在有限标注预算下训练相近效果的模型,从而使得数据获取的成本大大降低。
[0006]本专利技术为达到上述专利技术目的,采用如下技术方案:第一方面,本专利技术提供一种使用部分敏感群体标签提高机器学习公平性的方法,该方法包括以下步骤:S1、通过基于公平准则的正则项约束父任务的机器学习模型,以提升机器学习模型预测的公平性;S2、基于贝叶斯公式建模公平准则对于敏感属性学习器的影响,以构建用于有效训练敏感属性学习器的交互式学习框架;S3、使用基于群组的主动学习算法挑选数据集中的少量样本进行敏感属性标注,在有限的预算下获得最好的模型性能。
[0007]更进一步地,所述交互式学习框架由父任务的机器学习模型和敏感属性学习器模型组成,两个模型交互式训练、迭代更新。
[0008]更进一步地,所述父任务的机器学习模型的二分类任务以及其他不同的父任务
中,使用公平性指标“人口均等”对父任务的机器学习模型的训练进行约束,表达为:,其中代表模型的预测值,代表种群,约束的出发点为使得父任务的机器学习模型对不同种群预测的正类比例相近,并将该公平性指标成为模型学习的目标函数,从“人口均等”的定义出发,基于数学近似进行推导得到损失项为:,其中表示样本的预测伪标签,且由父任务的机器学习模型得到,表示样本的特征,表示样本的敏感属性预测值,表示敏感属性标签中为0的个数,表示敏感属性标签中1的个数。
[0009]更进一步地,所述基于贝叶斯公式,对原公平准则进行适当的变形和转化,同样从“人口均等”的定义出发,进行数学推导得到损失项为:,其中表示样本的预测伪标签,且由父任务的机器学习模型得到,表示样本的特征,表示样本的敏感属性标签,表示敏感属性标签中为0的个数,表示敏感属性标签中1的个数。
[0010]更进一步地,在步骤S3中,所述最好的模型性能为通过主动选择数据获得标签,挑选得出对模型学习最有价值的样本。
[0011]更进一步地,所述主动学习算法的计算过程为:在给定随机挑选的标注样本的基础上,先分多次在敏感属性学习器模型的训练过程中,从样本池中挑选新样本进行标注,并在每轮挑选新样本时,将所有样本按照群组敏感信息进行分组;然后在训练过程中分别计算敏感属性学习器在每个群组的平均损失,选择平均损失最大的群组:,其中,表示敏感属性学习器对样本的损失函数;最后通过增加倍选择族群的概率,使得敏感属性学习器模型能够学习到更多不擅长的样本。
[0012]更进一步地,所述主动学习算法的具体计算过程为:(1)群组主动学习,选择一组样本进行标注,表示样本的特征,表示样本的敏感属性标签,询问敏感属性学习器模型后得到样本的敏感属性标签;(2)优化敏感属性学习器,将样本的特征输入敏感属性学习器模型,得到样本的敏感属性伪标签;(3)优化父任务模型,将样本的特征、敏感属性伪标签输入父任务的机器学习模型,得到样本的预测伪标签;(4)将样本的预测伪标签再次输入敏感属性学习器模型,进一步优化敏感属性
学习器,并重复上述步骤进行迭代。
[0013]第二方面,本专利技术提供一种提高机器学习公平性的电子设备,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时实现所述的使用部分敏感群体标签提高机器学习公平性的方法。
[0014]第三方面,本专利技术提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现所述的使用部分敏感群体标签提高机器学习公平性的方法。
[0015]与现有技术相比,本专利技术的有益效果如下:半监督学习技术可以获得相对准确的敏感属性伪标签,但是它们忽略了敏感属性学习器对于父任务模型的直接影响,同时没有最大化利用标注的预算。本专利技术方法提出了一种交互式训练的框架,由父任务的机器学习模型和敏感属性学习器模型组成,两个模型交互式训练、迭代更新,使得两个模型不断优化并能直接促进算法更加公平,同时还提出了一种主动选择样本的算法,可以有效利用有限的预算获得最好的模型性能;本专利技术区别于传统半监督学习随机选取部分数据集进行标注的做法,提出了一种主动选择数据获得标签的算法,该方法的核心思想是挑选出那些对模型学习最有价值的样本。在一定随机挑选的标注样本基础上,分多次在敏感属性学习器模型训练的过程中,从样本池中挑选新样本进行标注。
[0016]本专利技术提出了交互式训练框架将两个模型作为一个整体进行优化,改变了传统半监督方法将预测敏感信息伪标签独立训练的方式,通过全新的正则项使得该模型能够在学习过程中,不只关注预测出准确的敏感属性标签,而是更加直接地去优化父任务模型的公平性。
附图说明
[0017]图1为传统的交互式训练学习方法的示意图;图2为本专利技术的实施例1中交互式学习框架的示意图;图3为本专利技术的实施例1中交互式学习的训练过程的示意图。
具体实施方式实施例1:
[0018]本实施例公开了一种使用部分敏感群体标签提高机器学习公平性的方法,参照图1~3,该方法包括以下步骤:S1、通过基于公平准则的正则项约束父任务的机器学习模型,以提升机器学习模型预测的公平性;S2、基于贝叶斯公式建模公平准则对于敏感属性学习器的影响,以构建用于有效训练敏感属性学习器的交互式学习框架;S3、使用基于群组的主动学习算法挑选数据集中的少量样本进行敏感属性标注,在有限的预算下获得最好本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种使用部分敏感群体标签提高机器学习公平性的方法,其特征是,该方法包括以下步骤:S1、通过基于公平准则的正则项约束父任务的机器学习模型,以提升机器学习模型预测的公平性;S2、基于贝叶斯公式建模公平准则对于敏感属性学习器的影响,以构建用于有效训练敏感属性学习器的交互式学习框架;S3、使用基于群组的主动学习算法挑选数据集中的少量样本进行敏感属性标注,在有限的预算下获得最好的模型性能。2.根据权利要求1所述的使用部分敏感群体标签提高机器学习公平性的方法,其特征是,所述交互式学习框架由父任务的机器学习模型和敏感属性学习器模型组成,两个模型交互式训练、迭代更新。3.根据权利要求2所述的使用部分敏感群体标签提高机器学习公平性的方法,其特征是,所述父任务的机器学习模型的二分类任务以及其他不同的父任务中,使用公平性指标“人口均等”对父任务的机器学习模型的训练进行约束,表达为:,其中代表模型的预测值,代表种群,约束的出发点为使得父任务的机器学习模型对不同种群预测的正类比例相近,并将该公平性指标成为模型学习的目标函数,从“人口均等”的定义出发,基于数学近似进行推导得到损失项为:,其中表示样本的预测伪标签,且由父任务的机器学习模型得到,表示样本的特征,表示样本的敏感属性预测值,表示敏感属性标签中为0的个数,表示敏感属性标签中1的个数。4.根据权利要求2所述的使用部分敏感群体标签提高机器学习公平性的方法,其特征是,所述基于贝叶斯公式,对原公平准则进行适当的变形和转化,同样从“人口均等”的定义出发,进行数学推导得到损失项为:,其中表示样本的预测伪标签,且由父任务的机器学习模型得到,表示样本的特征,表示样本的敏感属性标签,表示敏感属性标签中为0的个数,表示敏感属性标签中1的个数。5.根据权利要求1所述的使用部分敏感群体标签提高机器学习公平性的方法,其特征是,在步骤...

【专利技术属性】
技术研发人员:何向南杨泽宇冯福利张及之
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1