一种基于差分隐私的纵向联邦学习用户信用评分方法技术

技术编号:39847091 阅读:6 留言:0更新日期:2023-12-29 16:45
本发明专利技术涉及一种基于差分隐私的纵向联邦学习用户信用评分方法,属于隐私计算技术领域

【技术实现步骤摘要】
一种基于差分隐私的纵向联邦学习用户信用评分方法


[0001]本专利技术涉及一种基于差分隐私的纵向联邦学习用户信用评分方法,属于隐私计算



技术介绍

[0002]随着信息技术的发展,各种终端设备产生了大量的数据

从大量的数据中获取有价值的内容,是当前研究的重点

由于用户数据分散在不同的设备中,数据共享是实现数据价值化的一个必要需求

[0003]在现实场景中,数据往往分布在多个银行单位
(
数据持有方
)


为了训练得到较优的全局模型的效果,技术人员希望数据持有方能够协同实现数据分析和建模

然而,各个数据持有者担心将自己的数据暴露给其他方或者第三方,从而导致隐私泄露和商业机密被窃取

目前,传统的机器学习方法是将所有的数据聚集到同一个服务器中,然后进行全局模型的训练

传统的机器学习方法容易导致数据泄露和隐私侵犯的问题,因此,需要一种新的数据协作方式来保证数据安全

[0004]作为数据不出域各方联合训练的新方法,纵向联邦学习通过共享模型而不是共享数据来实现各方的协同训练,在一定程度上保护了原始数据的安全

然而,传统的联邦学习方法也存在一些问题,如攻击者通过模型推断出参与方的原始数据和身份,存在中间人攻击和数据泄露的风险等

[0005]针对这种情况,一般可通过如下几个方案实现隐私保护:
[0006]1.
基于同态加密的解决方法

将同态加密应用于纵向联邦学习中可以实现在保护数据隐私的同时,允许不同参与方之间共享模型参数和中间结果

具体地,可以使用同态加密来加密参与方的输入数据和底层模型参数,并在加密的状态下执行前向传播

反向传播和梯度更新等计算操作

在这个过程中,加密数据保持不可读,只有在最后的解密步骤中才能得到明文结果

这个过程中数据隐私得到了很好的保护,参与方的原始数据和中间结果在加密状态下得到了保护,没有泄漏风险

参与方之间可以共享加密的模型参数和中间结果,而无需将明文数据暴露给其他方

可以适用于各种计算任务,包括前向传播

反向传播和梯度更新等

[0007]但是,该方法存在如下技术缺点:
[0008]针对纵向联邦学习在用户信用评分中应用存在的计算效率较低,需要大量的计算资源和时间,成本较高

此外,在加密状态下执行计算操作可能会导致信息损失,可能会影响模型的性能和准确性

[0009]2.
基于安全多方计算的解决方法

每个参与者在本地执行其底层模型的前向传播,并使用安全多方计算将中间结果的加密值共享给其他参与者

然后,每个参与者使用共享的加密值来计算顶层模型的梯度,并在
SMPC
的帮助下将梯度聚合到一起,计算顶层模型的参数更新

最后,通过加密传输结果来保护隐私,确保每个参与者只知道自己的输入和输出,不知道其他参与者的输入和计算过程

与方案1相比,方案2提供了更强的隐私保护,每
个参与者只知道自己的输入和输出,不知道其他参与者的输入和计算过程,确保了数据隐私

更加灵活,安全多方计算可以适用于各种数据类型和计算任务,因此适用性更广泛

[0010]但是,该方法存在如下技术缺点:
[0011](1)
计算效率较低:安全多方计算需要多次通信和计算,因此效率较低,尤其是在处理大规模数据时

[0012](2)
需要可信第三方:安全多方计算需要一个可信第三方来协调计算和共享数据,否则可能会出现非法参与者,从而影响计算结果的正确性和隐私保护的有效性

[0013]3.
基于秘密共享的解决方法

将底层模型的梯度分成多份,分别分发给不同的参与者,并对每份梯度进行加密,使得每个参与者只能获得自己手中的梯度信息,需要多个参与者合作才能还原出完整的梯度信息

这样就可以保护底层模型的梯度隐私,同时不会带来过多的精度损失

方案
1、
方案2需要添加噪声来保护隐私,但这会带来精度损失

而秘密共享可以在不添加噪声的情况下实现隐私保护

且具有更高的计算效率

[0014]但是,该方法存在如下技术缺点:分发和合并梯度需要一定的计算和通信开销,可能会影响训练的效率;参与者之间需要密切合作才能完成计算过程,可能会存在协作难度和安全性问题;如果某个参与者的计算能力较弱或者非法篡改数据,会影响整个计算的结果


技术实现思路

[0015]本专利技术的目的是为了有效解决纵向联邦学习技术在用户信用评分中,参与方的数据安全和数据共享之间存在矛盾,计算开销大

安全性低等技术问题,创造性地提出一种基于差分隐私的纵向联邦学习用户信用评分方法

[0016]为了达到上述目的,本专利技术采取如下技术方法

[0017]首先,对相关定义进行说明:
[0018]定义1:划分网络
[0019]指将深度神经网络拆分成几个部分网络,分别由不同的参与方持有和运行某一部分网络,所有的参与方协同实现整个深度神经网络的训练

[0020]定义2:纵向联邦学习
[0021]指不同参与方拥有不同特征的数据集进行联合建模的过程

[0022]例如,医院
A
和医院
B
拥有不同的病人数据,其中医院
A
的数据包含病人的身高

体重等生理指标,医院
B
的数据包含病人的病历

用药记录等病史信息

这两个数据集的特征不同,但它们都可以用于训练一个模型,用于诊断疾病或者预测疾病风险等

[0023]定义3:差分隐私
[0024]指在处理数据时,通过添加一定程度的噪声来保护个人隐私

差分隐私的基本思想是将个人数据的隐私保护起来,使得在数据处理的过程中不会泄露个人敏感信息

[0025]在差分隐私中,噪声的添加是一个核心的步骤

具体而言,为了使得噪声的添加不会对数据处理的结果造成过大的影响,差分隐私要求噪声必须是随机的

不可预测的,而且需要在一定程度上保证数据处理的准确性

一般来说,差分隐私可以通过添加拉普拉斯噪声或高斯噪声来实现

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于差分隐私的纵向联邦学习用户信用评分方法,其特征在于,包括以下步骤:步骤1:初始化;首先,服务器根据任务需求初始化全局模型;然后,将全局模型在水平方向划分为顶层模型和底层模型;最后,将顶层模型分发给服务器,将子底层模型分发给各个参与方;步骤2:对各参与方的私有集求交集;在不暴露参与方本地数据的情况下,将参与方所持有的数据进行匹配,以此实现各参与方的数据样本对齐;步骤
2.1
:对于每个参与方,计算其私有集的哈希值,并将其发送给所有其他参与方;步骤
2.2
:每个参与方使用哈希值来检查其他参与方是否有相同的哈希值;如果存在相同的哈希值,则将其标记为候选集;否则,舍弃相应数据;步骤
2.3
:参与方将候选集发送给其他参与方以进行验证,每个参与方将验证候选集中的元素是否存在于其自己的私有集中;步骤
2.4
:如果元素在所有参与方的私有集中都存在,则将其添加到交集中;否则,舍弃相应数据;步骤3:各个参与方使用本地数据和底层模型进行本地模型前向训练;首先,各个参与方本地数据特征作为底层模型的输入;经过底层模型的线性变换和激活函数后,输出本地中间结果;然后,在本地中间结果中注入若干满足差分隐私的噪声来保护本地数据安全;最后,将具有噪声的本地中间结果发送给服务器;步骤4:服务器将满足差分隐私的噪声的本地中间结果进行拼接,得到具有隐私保护的中间结果;首先,服务器接收到所有参与方发送的本地中间结果;然后,服务器将所有的参与方的本地中间结果按照列向量拼接成中间结果;步骤5:服务器使用经过差分隐私保护的中间结果作为输入,训练顶层模型;其中,所采用的优化算法是随机梯度下降算法,将顶层模型的梯度反向传播到中间结果,得到经过差分隐私保护的中间结果的梯度;步骤
5.1
:将中间结果作为顶层模型的输入,训练顶层模型得到预测结果
Θ
;步骤
5.2
:将预测结果
Θ
与真实标签
y
进行比较,计算损失值
l

L(
Θ
,y)

L()
表示损失函数,例如交叉熵损失等;步骤
5.3
:在反向传播过程中,损失函数相对于顶层模型输出的梯度计算为其中
L
表示损失函数,
Θ
表示预测结果,表示偏导;步骤
5.4
:使用随机梯度下降法实现顶层模型反向更新梯度,并得到反向传播中间结果;步骤6:将反向传播中间结果注入噪声,并分发给各个参与方;步骤
6.1
:服务器在反向传播中间结果注入满足差分隐私的高斯噪声,保护服务器中的标签安全;步骤
6.2
:服务器将具有隐私保护的反向传播中间结果拆分为反向传播子中间结果;
步骤
6.3
:服务器将反向传播子中间结果分发给各个参与方;步骤7:参与方将子反向中间结果作为输入使用梯度下降法来计算底层模型的梯度,更新底层模型的参数;步骤
7.1
:各个参与方得到子反向中间结果;步骤
7.2
:...

【专利技术属性】
技术研发人员:盖珂珂王烁孙品徐蕾祝烈煌
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1