【技术实现步骤摘要】
一种梯度扰动的机器学习公平性方法及系统
[0001]本专利技术属于机器学习领域,具体地说是一种梯度扰动的机器学习公平性方法及系统,用于在分类算法中同时实现机器学习的公平性。
技术介绍
[0002]随着信息技术的不断发展,人工智能已经被广泛应用于金融、医疗、法律、教育等领域,给我们的生活带来了极大的便利。人工智能的广泛应用扩大了相关技术的影响力,但也引发了一系列问题,其中最引人注目的便是模型引发的隐私和公平问题。首先,人工智能技术需要大量的数据来训练模型,但这些数据中通常会包含个人信息,如果这些数据被泄露,可能会对个人隐私造成严重影响。其次,由于历史遗留,数据不平衡,模型设计不合理等原因,人工智能可能对不同群体提供不同质量的服务。因此,解决如何在保证较高精度的情况下最大限度地实现隐私和公平的问题,是目前的重要课题。
[0003]针对上述的隐私保护问题,Cynthia Dwork提出了差分隐私技术。差分隐私的思想是,在收集和分析数据时,通过在数据中添加噪声来防止数据被准确地还原。近年来,差分隐私在机器学习领域被广泛使用, ...
【技术保护点】
【技术特征摘要】
1.一种梯度扰动的机器学习公平性方法,其特征在于:该方法包括以下步骤:S1、获取数据集,分为训练集和测试集,并进行预处理,所述预处理包括计算样本不平衡比率、数据转换以及改善数据集的平衡性;S2、进行参数设置,所述参数包括隐私保护强度和梯度裁剪阈值;S3、确定公平性规则,具体包括确定群体、设置公平性度量方法以及设置公平性约束;S4、选择模型类别,定义模型结构和初始化参数,并训练模型;S5、进行模型评估并调整优化模型。2.根据权利要求1所述的机器学习公平性方法,其特征在于:在步骤S1中,通过计算训练集中正类和负类样本的数量来计算得到样本不平衡比率;所述数据转换具体为:将过采样后的数据集转化成均值为0和标准差为1的分布,对于一个包含n条记录的数据集,其均值为根据均值将数据集中的每条记录更改为x
i
=x
i
‑
u;计算数据集的方差为再将每条记录更改为x
i
=x
i
/σ;所述改善数据集的平衡性具体为:选择少数类别中的一个样本x
i
,再在少数类别中选择另一个样本x
j
,计算x
i
与x
j
之间的距离d
i,j
;随后生成取值范围在[0,1]之间的随机数β,基于随机数β生成新样本x
new
=x
i
+α
×
d
i,j
,并将新样本加入数据集中。3.根据权利要求1所述的机器学习公平性方法,其特征在于:在步骤S3中,所述确定群体具体为确定模型中需要保持公平的组别;所述设置公平性度量方法具体为:不同群体使用差分隐私后,精度下降的比率一致,并且用a=0表示非代表性属性,a=1表示代表性属性,则有:式中,acc()表示准确率,acc
dp
()表示使用差分隐私优化器后的准确率;所述设置公平性约束具体为:4.根据权利要求1所述的机器学习公平性方法,其特征在于:在步骤S4中,训练模型的过程如下:S41、定义模型的损失函数和优化器;S42、模型优化器在随机梯度下降的基础上进行变种,在计算梯度时动态地向...
【专利技术属性】
技术研发人员:许加炜,王豪,雷建军,张清华,夏英,张旭,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。