一种在二分类中同时实现差分隐私和机器学习公平的方法技术

技术编号：34920693 阅读：9 留言：0更新日期：2022-09-15 07:12

本发明专利技术涉及一种在二分类中同时实现差分隐私和机器学习公平的方法，属于机器学习领域。将隐私和公平需求转化为一个多目标优化问题。首先，根据安全需求设置隐私保护强度及相关超参数；随后通过加权将反事实公平加入到目标函数中；接着将得到的新目标函数用泰勒公式展开，计算全局敏感度；然后根据得到的全局敏感度和隐私保护强度生成符合要求的高斯噪声；最后，使用得到的噪声扰动目标函数的多项式系数并执行梯度下降，计算最优权重。解决了在二分类中没有同时实现隐私和机器学习公平的问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种在二分类中同时实现差分隐私和机器学习公平的方法

[0001]本专利技术属于机器学习领域，涉及一种在二分类中同时实现差分隐私和机器学习公平的方法。

技术介绍

[0002]随着信息技术的快速发展，人类社会每天产生海量的数据。数据量的不断增多，算力的不断提升，使得机器学习算法的性能不断提高。为此，人工智能被越来越多地应用于人类生活的公共领域，成为辅助人们做决策的重要工具。但随着人工智能涉及范围的不断扩大，其引发的隐私和公平问题也越来越突出。首先，机器学习算法的正常运行依赖于大量的敏感信息。模型发布后，攻击者可以通过链接查询的方式来判断某个个体是否参与了模型的训练，进而获取该个体的敏感信息。其次，在金融借贷，信用评估，犯罪预测等涉及到性别、种族、学历等敏感属性的领域，人工智能可能会对受保护群体提供不公平的服务。无论是信息泄露，还是不公正的服务，都会对用户造成无法逆转的伤害。因此，如何在保证较高精度的前提下尽可能地实现隐私和公平，是现阶段亟待解决的难题。
[0003]针对可能存在的链接攻击问题，Dwork在2006年提出了差分隐私。它将查询的结果概率化，进而防止有任何辅助知识的攻击者从查询结果中推断出敏感信息。差分隐私是一种从数学上严格定义保护强度和数据可用性的隐私保护手段，是近年来隐私保护领域研究的热点。
[0004]针对可能存在的不公平问题，Kusner提出了反事实公平规则。当模型对个体的预测结果与其在反事实世界中的预测结果不同时，予以惩罚。将反事实公平作为目标函数的惩罚项，通过调整惩罚项的系数即可实现...

【技术保护点】

【技术特征摘要】
1.一种在二分类中同时实现差分隐私和机器学习公平的方法，其特征在于：该方法包括以下步骤：步骤S1，数据预处理；包括以下步骤：步骤S1
‑
1，首先对数据集执行one
‑
hot编码，然后将数据集的多值属性拆解成多个二值属性，得到新的特征x1，x2...x
d
；步骤S1
‑
2，对新的数据集执行标准化操作；让数据集的均值为0；假设数据集中包含n条数据，均值x＝x
‑
u；步骤S1
‑
3，让数据集的方差为1，x＝x/σ；步骤S2，设置相关参数；包括以下步骤：步骤S2
‑
1，根据隐私保护需求设置相应的隐私保护强度∈；步骤S2
‑
2，根据精度及公平需求设置平衡超参数α；步骤S3，生成新的目标函数；包括以下步骤：步骤S3
‑
1，生成公平约束；假设t
i
表示数据集中的一条记录，原目标函数为f(ω，t
i
)，预测结果为y
′
，实际结果为y；敏感属性为s；s＝0表示非代表性属性，s＝1表示代表性属性；则反事实公平约束con表示为：con＝((y
′
|s＝0)
‑
0.5)*((y
′
|s＝1)
‑
0.5)步骤S3
‑
2，将公平性约束加权到目标函数上；用超参数α调节精度与公平性约束之间的平衡；当g小于0时，表示在现实世界和反事实世界中的预测结果一致；则新的目标函数为步骤S4，验证连续可微分性；验证目标函数的连续可微分性，如果满足连续可微，执行步骤5，否则结束；步骤S5，展开目标函数；根据Stone
‑
Weierstrass定理，任何连续可微分的函数f(x)由一个多项式Ax
n
+Bx
n
‑
1...+Kx1+bX0来表示；函数f(x)在x＝x0处的泰勒展开式表示为：将新的目标函数在x＝0处进行展开，得到的多项式目标函数步骤S6，计算目标函数的全局敏感度Δf，包括以下步骤：步骤S7，噪声加入；向多项式目标函数的系数中加入高斯噪声；设则扰动后的多项式系数为：步骤S8，对目标函数执行梯度下降操作；根据得到的噪声多项式函数计算梯度，执行梯度下降操作；重复此步骤，直到函数收敛；得到满足差分隐私和机器学习公平的权重；步骤S9，模型发布；不断调节超参数α，平衡模型精度与安全性之间的关系，当同时达到要求精度和安全需求后，发布模型。
2.根据权利要求1一种在二分类中同时实现差分隐私和机器学习公平的方法，其特征在于：所述S6具体包括：步骤S6
‑
1，分别计算相邻数据集D和D
′
上的目标函数；φ表示权重中各个分量的运算结果，Φ
j
为幂为j的φ对应的集合，λ为多项式系数；对于数据集D，它的多项式目标函数表示为对于数据集D
′
，它的多项式目标函数为步骤S6
‑
2，计算多项式系数上的全局敏感度Δf；将S6
‑
1得到的多项式目标函数作差，得到3.基于权利要求1或2中所述方法的在二分类中同时实现差分隐私和机器...

【专利技术属性】
技术研发人员：王豪，许加炜，雷建军，张清华，夏英，张旭，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人