【技术实现步骤摘要】
一种基于差分隐私的纵向联邦学习用户信用评分方法
[0001]本专利技术涉及一种基于差分隐私的纵向联邦学习用户信用评分方法,属于隐私计算
。
技术介绍
[0002]随着信息技术的发展,各种终端设备产生了大量的数据
。
从大量的数据中获取有价值的内容,是当前研究的重点
。
由于用户数据分散在不同的设备中,数据共享是实现数据价值化的一个必要需求
。
[0003]在现实场景中,数据往往分布在多个银行单位
(
数据持有方
)
中
。
为了训练得到较优的全局模型的效果,技术人员希望数据持有方能够协同实现数据分析和建模
。
然而,各个数据持有者担心将自己的数据暴露给其他方或者第三方,从而导致隐私泄露和商业机密被窃取
。
目前,传统的机器学习方法是将所有的数据聚集到同一个服务器中,然后进行全局模型的训练
。
传统的机器学习方法容易导致数据泄露和隐私侵犯的问题,因此,需要一种新的数据协作方式来保证数据安全
。
[0004]作为数据不出域各方联合训练的新方法,纵向联邦学习通过共享模型而不是共享数据来实现各方的协同训练,在一定程度上保护了原始数据的安全
。
然而,传统的联邦学习方法也存在一些问题,如攻击者通过模型推断出参与方的原始数据和身份,存在中间人攻击和数据泄露的风险等
。
[0005]针对这种情况,一般可通过如下几个方案实现隐私 ...
【技术保护点】
【技术特征摘要】
1.
一种基于差分隐私的纵向联邦学习用户信用评分方法,其特征在于,包括以下步骤:步骤1:初始化;首先,服务器根据任务需求初始化全局模型;然后,将全局模型在水平方向划分为顶层模型和底层模型;最后,将顶层模型分发给服务器,将子底层模型分发给各个参与方;步骤2:对各参与方的私有集求交集;在不暴露参与方本地数据的情况下,将参与方所持有的数据进行匹配,以此实现各参与方的数据样本对齐;步骤
2.1
:对于每个参与方,计算其私有集的哈希值,并将其发送给所有其他参与方;步骤
2.2
:每个参与方使用哈希值来检查其他参与方是否有相同的哈希值;如果存在相同的哈希值,则将其标记为候选集;否则,舍弃相应数据;步骤
2.3
:参与方将候选集发送给其他参与方以进行验证,每个参与方将验证候选集中的元素是否存在于其自己的私有集中;步骤
2.4
:如果元素在所有参与方的私有集中都存在,则将其添加到交集中;否则,舍弃相应数据;步骤3:各个参与方使用本地数据和底层模型进行本地模型前向训练;首先,各个参与方本地数据特征作为底层模型的输入;经过底层模型的线性变换和激活函数后,输出本地中间结果;然后,在本地中间结果中注入若干满足差分隐私的噪声来保护本地数据安全;最后,将具有噪声的本地中间结果发送给服务器;步骤4:服务器将满足差分隐私的噪声的本地中间结果进行拼接,得到具有隐私保护的中间结果;首先,服务器接收到所有参与方发送的本地中间结果;然后,服务器将所有的参与方的本地中间结果按照列向量拼接成中间结果;步骤5:服务器使用经过差分隐私保护的中间结果作为输入,训练顶层模型;其中,所采用的优化算法是随机梯度下降算法,将顶层模型的梯度反向传播到中间结果,得到经过差分隐私保护的中间结果的梯度;步骤
5.1
:将中间结果作为顶层模型的输入,训练顶层模型得到预测结果
Θ
;步骤
5.2
:将预测结果
Θ
与真实标签
y
进行比较,计算损失值
l
=
L(
Θ
,y)
,
L()
表示损失函数,例如交叉熵损失等;步骤
5.3
:在反向传播过程中,损失函数相对于顶层模型输出的梯度计算为其中
L
表示损失函数,
Θ
表示预测结果,表示偏导;步骤
5.4
:使用随机梯度下降法实现顶层模型反向更新梯度,并得到反向传播中间结果;步骤6:将反向传播中间结果注入噪声,并分发给各个参与方;步骤
6.1
:服务器在反向传播中间结果注入满足差分隐私的高斯噪声,保护服务器中的标签安全;步骤
6.2
:服务器将具有隐私保护的反向传播中间结果拆分为反向传播子中间结果;
步骤
6.3
:服务器将反向传播子中间结果分发给各个参与方;步骤7:参与方将子反向中间结果作为输入使用梯度下降法来计算底层模型的梯度,更新底层模型的参数;步骤
7.1
:各个参与方得到子反向中间结果;步骤
7.2
:...
【专利技术属性】
技术研发人员:盖珂珂,王烁,孙品,徐蕾,祝烈煌,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。