基于纵向联邦学习的隐私数据处理方法及相关设备技术

技术编号：41158758 阅读：3 留言：0更新日期：2024-04-30 18:22

本发明专利技术公开了一种基于纵向联邦学习的隐私数据处理方法及相关设备，包括：通过协作方节点采用加密算法，生成公私钥对，并将公钥发送给各个参与方节点；各个参与方节点和协作方节点，采用公私钥进行相同样本对齐，得到用于对各个参与方进行纵向联邦学习的训练数据集；各个参与方节点通过训练数据集进行纵向联邦学习建模训练，得到目标联邦学习模型；各个参与方节点采用目标联邦学习模型进行隐私数据处理。采用本发明专利技术提升了隐私数据处理的安全性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，尤其涉及一种基于纵向联邦学习的隐私数据处理方法及相关设备。

技术介绍

1、联邦学习是一种带有隐私保护、安全加密技术的分布式机器学习技术，旨在让分散的各个参与方在不暴露各自敏感数据的前提下，共同协作进行模型的构建跟训练。其核心思想是通过在拥有本地数据源的参与方之间进行分布式模型构建跟训练，并且在不需要交换各自所拥有的个体或样本数据的前提下，只通过交换各自训练模型的参数或中间的运算结果的方式，共同构建基于虚拟融合数据下的全局模型，从而实现数据隐私保护和数据共享计算的平衡，这样就可以达到“数据可用不可见”、“数据不动模型动”的效果。

2、联邦学习可以根据数据的分布情况分为横向联邦学习、纵向联邦学习以及联邦迁移学习。其中，在纵向联邦学习中，多个数据中心分别拥有的数据训练样本会相互重叠，但是样本特征确是互补的，这样能够适用于多方特征服务于相同业务标签的场景，并且纵向联邦学习方法可以打破数据孤岛，联合各方数据获得更高质量的机器学习模型，同时兼顾用户隐私数据保护，在增加数据流通以广泛应用智能模型方面发挥了重要作用。也使得纵向联邦学习在金融、医疗等领域的应用比较广泛。

3、现有技术中，申请号为cn202310009611.1的专利申请中，公开涉及一种基于纵向联邦学习的模型训练方法及装置，该方法中多个节点通过纵向联邦学习共同训练全局逻辑回归模型时，拥有样本标签的节点通过本地差分隐私技术产生差分隐私化噪声，再将差分隐私化噪声添加在每一轮训练的模型残差(即第一残差)之上，保护模型残差不会被参与联邦学

4、现有技术中，申请号为cn202310210011.1的专利申请中，公开了一种基于深度哈希的纵向联邦学习隐私保护方法和系统，属于分布式机器学习安全
通过各合作方本地模型获取样本的抽象表示，通过归一化层得到零均值连续码，利用哈希层对连续码进行二值化后得到哈希码；各参与方将哈希码上传服务器端，服务器端聚合各方哈希码，通过顶层模型计算预测值，依据预测值和标签计算分类损失、利用预生成的二值码计算各参与方哈希码间的余弦相似度损失，通过上述损失计算梯度，更新顶层模型，并向各合作方分发各自梯度，梯度在本地哈希层传播时保持不变。本专利技术利用深度哈希技术，能够在保障用户数据安全的前提下，既不损失模型性能，又极大程度地提高了计算效率，不存在模型被攻击者逆向重构的风险。

5、现有技术中，申请号为cn202310263221.7的专利申请中，提供一种纵向联邦逻辑回归训练方法及装置，各参与方使用ckks全同态加密将本地计算的半梯度列表加密发送给对方，将接收到的对方加密后的半梯列表，与本地计算的明文半梯度列表相加并与明文数据矩阵的转置相乘，计算得到加密状态下完整的梯度。对加密状态下完整的梯度添加混淆后发送至对方参与方进行解密后返回，消除混淆后得到最终的明文梯度用于更新模型。基于纵向逻辑回归的训练模式，引入ckks进行全同态加密，极大简化了同态加密过程，提升了计算效率。

6、专利技术人在实现本专利技术的过程中，意识到现有技术至少存在如下技术问题：目前在纵向联邦学习的训练过程中，采取的隐私保护手段通常为差分隐私方法、同态加密方法以及基于深度哈希的纵向联邦学习隐私保护方法。差分隐私方法主要通过为数据或模型更新梯度添加噪声来保护数据隐私，目的在增加攻击者重构数据的难度，但存在的问题是噪声累积会降低数据可用性，从而影响模型的相关性能；同态加密方法则通过密码学的手段保护数据传输和计算过程，客户端在本地通过公钥对上传数据进行加密，服务器端则在加密状态下将数据进行聚合计算，但计算开销相较于明文计算显著增加；基于深度哈希的技术手段实现隐私保护，虽然在保证模型性能的前提下能够消除数据泄露风险，同时降低了计算开销，不存在模型被攻击者逆向重构的风险，但是会造成整体模型的复杂性会增加，并且会随着模型参数的增加，整体训练效率就会有一定的影响。

7、综上所述，当前纵向联邦学习隐私保护方法在设计上主要存在以下不足：一、添加随机噪声会导致模型性能下降，会降低数据的可用性；二、整个纵向联邦学习过程中，采用同态加密计算方法，针对大规模的张量数据，会导致加密跟解密时间过长，不利于纵向联邦学习的大规模应用。

技术实现思路

1、本专利技术实施例提供一种基于纵向联邦学习的隐私数据处理方法、装置、计算机设备和存储介质，以提高基于纵向联邦学习的隐私数据处理的安全性和效率。

2、为了解决上述技术问题，本申请实施例提供一种基于纵向联邦学习的隐私数据处理方法，应用于分布式集群，所述分布式集群包括协作方节点和至少两个参与方节点，所述基于纵向联邦学习的隐私数据处理方法包括：

3、所述协作方节点采用加密算法，生成公私钥对，并将所述公钥发送给各个参与方节点；

4、各个参与方节点和所述协作方节点，采用所述公私钥进行相同样本对齐，得到用于对各个参与方进行纵向联邦学习的训练数据集；

5、各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练，得到目标联邦学习模型；

6、各个参与方节点采用所述目标联邦学习模型进行隐私数据处理。

7、可选地，所述各个参与方节点和所述协作方节点，采用所述公私钥进行相同样本对齐，得到用于对各个参与方进行纵向联邦学习的训练数据集包括：

8、所述第一参与方节点基于公钥对本地数据中的id进行加密，并构建第一数值对集合，并把所述第一数值对集合发送给第二参与方节点，其中，所述第一参与方节点的本地数据包含标签值，所述第一数值对集合中包含至少两个第一数值对，每个第一数值对由索引和加密的id组成；

9、所述第二参与方节点基于本地数据中的id构建多项式，并将接收到的所述第一数值对集合代入到所述多项式中，得到第二数值对集合，并把所述第二数值对集合发送给所述协作方节点；

10、所述协作方节点利用私钥对所述第二数值对集合中的加密id进行解析，得到所述第一参与方节点和所述第二参与方节点的交集索引，并把所述交集索引发送给所述第一参与方节点；

11、所述第一参与方节点接收所述交集索引，基于所述交集索引确定所述第一参与方节点与所述第二参与方节点的共有群体id集合，并将所述共有群体id集合发送给所述第二参与方节点，将所述共有群体id集合中共有群体对应的数据作为所述训练数据集。

12、可选地，所述加密算法为paillier同态加密算法。

13、可选地，所述所述协作方节点采用加密算法，生成公私钥对包括：

14、在密钥生成阶段取g=n+1，模反元素μ的表达式如下：

15、；

16、根据二项式定理对进行展开，转换成如下所示：

17、；

18、把公式（f2)代入公式（f1)，从而得到模反元素μ的最终表达式：

19、；

20、把g=n本文档来自技高网...

【技术保护点】

1.一种基于纵向联邦学习的隐私数据处理方法，其特征在于，应用于分布式集群，所述分布式集群包括协作方节点和至少两个参与方节点，所述基于纵向联邦学习的隐私数据处理方法包括：

2.如权利要求1所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述各个参与方节点和所述协作方节点，采用所述公私钥进行相同样本对齐，得到用于对各个参与方进行纵向联邦学习的训练数据集包括：

3.如权利要求1或2所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述加密算法为paillier同态加密算法。

4.如权利要求3所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述协作方节点采用加密算法，生成公私钥对包括：

5.如权利要求1所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述各个参与方节点通过所述训练数据集进行纵向联邦学习建模训练，得到目标联邦学习模型包括：

6.一种基于纵向联邦学习的隐私数据处理装置，其特征在于，所述基于纵向联邦学习的隐私数据处理装置包括：

7.如权利要求6所述的基于纵向联邦学习的隐私数据处理装置，

8.如权利要求6所述的基于纵向联邦学习的隐私数据处理装置，其特征在于，所述模型训练模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于纵向联邦学习的隐私数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于纵向联邦学习的隐私数据处理方法。

...

【技术特征摘要】

3.如权利要求1或2所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述加密算法为paillier同态加密算法。

4.如权利要求3所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述协作方节点采用加密算法，生成公私钥对包括：

5.如权利要求1所述的基于纵向联邦学习的隐私数据处理方法，其特征在于，所述各个参与方节点通过所述训练数据集进行纵向联邦学习建...

【专利技术属性】
技术研发人员：陈铁金，李国庆，
申请(专利权)人：智慧眼科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人