一种基于三方同态加密纵向联邦学习的模型保护方法技术

技术编号：34631825 阅读：26 留言：0更新日期：2022-08-24 15:04

针对目前联邦学习不同参与者在私人数据训练模型的过程中的隐私泄露问题，本发明专利技术提出了一种基于三方同态加密纵向联邦学习的模型保护方法。本发明专利技术步骤：首先，在传统纵向联邦学习系统中提出了一种分类交叉熵损失函数，它在客户端而不是集中式服务器上部署基于梯度的优化器，优化目标是最小化针对标签的分类交叉熵损失；然后参与训练的双方采用隐私保护实体对齐技术获得双方共同的ID进行联邦模型训练，确保系统双方不会暴露各自原始数据；最后，在加密模型训练阶段采用半同态加密进行加解密双方交换的部分梯度，使得存储的标签不会离开本地。本发明专利技术提供了系统的理论性能，显著降低了通信成本，还为数据提供了较强的隐私保护。还为数据提供了较强的隐私保护。还为数据提供了较强的隐私保护。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于三方同态加密纵向联邦学习的模型保护方法

[0001]本专利技术主要涉及到纵向联邦学习(VFL)领域，特别是涉及到一种基于三方同态加密纵向联邦学习的模型保护方法。

技术介绍

[0002]在过去几年里，我们见证了机器学习(ML)在人工智能(AI)应用领域中的迅猛发展，例如计算机视觉、自动语音识别、自然语言处理以及推荐系统等。然而，联邦学习的主要目标是保护参与者训练数据的隐私，并从参与者的训练数据中有效和高效地学习联合机器学习模型。
[0003]纵向联邦学习(VFL)更适合大型企业之间的联合模型训练。设想同一个城市的两家不同的公司，一家是汽车制造商，另一家是保险公司，它们共享很大比例的用户集并且具有不同的用户属性。自动驾驶汽车会收集大量数据，保险公司可以根据驾驶员的表现为它们制定个性化的保险计划。
[0004]许多纵向联邦学习的学习协议为了计算效率而牺牲了数据安全性和用户隐私。我们观察到这种对效率的牺牲使得实际的联合模型训练容易受到对手的攻击，从而导致隐私数据的泄露。因此，将VFL与适当的隐私保护机制(如同态加密HE)相结合，可达到降低VFL隐私风险的目的。
[0005]综上所述，为了保证计算效率，同时还不牺牲数据安全性及用户隐私，将通用的两阶段提交(Two Phase Commit，2PC)纵向联邦学习架构应用于分类问题，各参与方通过对齐它们的数据集后，在共享ID空间上进行联邦模型训练，然后将分类交叉熵损失函数方法应用到架构中，在客户端部署基于梯度的优化器以保护隐私。

技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种基于三方同态加密纵向联邦学习的模型保护方法，所述方法至少包括以下步骤：步骤一、通过将数据集拆分为图像数据集和标签数据集来创建垂直分区的数据集，给每个数据点(图像和标签)分配一个唯一的ID空间；步骤二、根据纵向联邦学习中的主动方A和被动方B唯一的ID空间采用隐私保护实体解析协议进行标识对齐操作，找出参与者共享的ID空间I，也就是标识的交集；步骤三、利用共有的样本ID空间I对本地模型进行训练，服务端VFL Server将共享ID空间I分成大小为n的批次，被动方B生成公私钥对(pk,sk)，并把公钥pk发送给主动方A，被动方B计算自身共享模型的概率分布输出，使用半同态加密的公钥对部分梯度进行加密，然后将概率分布输出和加密梯度一同发送给主动方A；步骤四、主动方A计算自身共享模型的概率分布输出，计算平均共享模型概率分布，求得最小化针对标签的分类交叉熵损失，计算自身梯度，通过具有梯度的指定优化器更新客户端权重，然后将损失函数发送服务端VFL Server并记录下来；步骤五、主动方A通过加密的部分梯度组合得到被动方B的加密梯度值，然后将加密后的梯度发送回给第二参与方，随后被动方B使用私钥sk解密得到梯度，被动方B通过具有梯度的指定优化器更新客户端权重，联邦学习训练过程直到模型收敛或者达到最大迭代才予以终止。2.根据权利要求1所述的一种基于三方同态加密纵向联邦学习的模型保护方法，其特征在于：所述的创建垂直分区的数据集，即数据集被垂直分区并分布在两个诚实但好奇的隐私参与方A(具有特征和标签的访客数据提供者)和B(仅具有特征的主机数据提供者)上，X∈R
n
×
m
为由m个数据样本组成的数据集，每个实例具有N个特征，所以X
A
∈R
n
×
m
是主动方A拥有的数据集，X
B
∈R
n
×
m
是被动方B拥有的数据集，每一方都拥有X＝(X
A
,X
B
)的公共样本ID上的数据特征的不相交子集。3.根据权利要求1所述的一种基于三方同态加...

【专利技术属性】
技术研发人员：裴廷睿，马盛豪，李哲涛，曹江莲，李艳春，龙赛琴，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人