当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于三方同态加密纵向联邦学习的模型保护方法技术

技术编号:34631825 阅读:26 留言:0更新日期:2022-08-24 15:04
针对目前联邦学习不同参与者在私人数据训练模型的过程中的隐私泄露问题,本发明专利技术提出了一种基于三方同态加密纵向联邦学习的模型保护方法。本发明专利技术步骤:首先,在传统纵向联邦学习系统中提出了一种分类交叉熵损失函数,它在客户端而不是集中式服务器上部署基于梯度的优化器,优化目标是最小化针对标签的分类交叉熵损失;然后参与训练的双方采用隐私保护实体对齐技术获得双方共同的ID进行联邦模型训练,确保系统双方不会暴露各自原始数据;最后,在加密模型训练阶段采用半同态加密进行加解密双方交换的部分梯度,使得存储的标签不会离开本地。本发明专利技术提供了系统的理论性能,显著降低了通信成本,还为数据提供了较强的隐私保护。还为数据提供了较强的隐私保护。还为数据提供了较强的隐私保护。

【技术实现步骤摘要】
一种基于三方同态加密纵向联邦学习的模型保护方法


[0001]本专利技术主要涉及到纵向联邦学习(VFL)领域,特别是涉及到一种基于三方同态加密纵向联邦学习的模型保护方法。

技术介绍

[0002]在过去几年里,我们见证了机器学习(ML)在人工智能(AI)应用领域中的迅猛发展,例如计算机视觉、自动语音识别、自然语言处理以及推荐系统等。然而,联邦学习的主要目标是保护参与者训练数据的隐私,并从参与者的训练数据中有效和高效地学习联合机器学习模型。
[0003]纵向联邦学习(VFL)更适合大型企业之间的联合模型训练。设想同一个城市的两家不同的公司,一家是汽车制造商,另一家是保险公司,它们共享很大比例的用户集并且具有不同的用户属性。自动驾驶汽车会收集大量数据,保险公司可以根据驾驶员的表现为它们制定个性化的保险计划。
[0004]许多纵向联邦学习的学习协议为了计算效率而牺牲了数据安全性和用户隐私。我们观察到这种对效率的牺牲使得实际的联合模型训练容易受到对手的攻击,从而导致隐私数据的泄露。因此,将VFL与适当的隐私保护机制(如同态加密HE)相结合,可达到降低VFL隐私风险的目的。
[0005]综上所述,为了保证计算效率,同时还不牺牲数据安全性及用户隐私,将通用的两阶段提交(Two Phase Commit,2PC)纵向联邦学习架构应用于分类问题,各参与方通过对齐它们的数据集后,在共享ID空间上进行联邦模型训练,然后将分类交叉熵损失函数方法应用到架构中,在客户端部署基于梯度的优化器以保护隐私。

技术实现思路

[0006]本专利技术的目的在于克服纵向联邦学习(Vertical Federated Learning,VFL)技术在数据隐私和效率两方面的缺点,提出了一种基于三方同态加密纵向联邦学习的模型保护方法,主要应用于纵向联邦学习领域。本专利技术的步骤为:首先创建垂直分区的数据集,然后采用隐私保护实体解析协议进行标识对齐操作以获得标识交集,训练过程中计算平均共享概率分布输出,运用半同态加密对部分梯度加密并解密,求得最小化分类交叉熵损失,双方通过具有梯度的指定优化器更新自身客户端权重。本专利技术的方案具体如下:
[0007]1、步骤一、通过将数据集拆分为图像数据集和标签数据集来创建垂直分区的数据集,给每个数据点(图像和标签)分配一个唯一的ID空间;
[0008]步骤二、根据纵向联邦学习中的主动方A和被动方B的唯一的ID空间采用隐私保护实体解析协议进行标识对齐操作,找出参与者共享的ID空间I,即标识的交集;
[0009]步骤三、利用共有的样本ID空间I对本地模型进行训练,服务端VFL Server将共享ID空间I分成大小为n的批次,被动方B生成公私钥对(pk,sk),并把公钥pk发送给主动方A,被动方B计算自身共享模型的概率分布输出,使用半同态加密的公钥对部分梯度进行加密,
然后将概率分布输出和加密梯度一同发送给主动方A;
[0010]步骤四、主动方A计算自身的共享模型的概率分布输出,计算平均共享模型概率分布,求得最小化针对标签的分类交叉熵损失,计算自身梯度,通过具有梯度的指定优化器更新客户端权重,然后将损失函数发送至服务端VFL Server并记录下来;
[0011]步骤五、主动方A通过加密的部分梯度组合得到被动方B的加密梯度值,然后将加密后的梯度发送回给被动方B,随后被动方B使用私钥sk解密得到梯度,被动方B通过具有梯度的指定优化器更新客户端权重,联邦学习训练过程中不会终止,直到模型收敛或者达到最大迭代;
[0012]2、进一步,需要创建垂直分区的数据集,即数据集被垂直分区并分布在两个诚实但好奇的隐私参与方A(具有特征和标签的访客数据提供者)和B(仅具有特征的主机数据提供者)上,X∈R
n
×
m
为由m个数据样本组成的数据集,每个实例具有N个特征,所以X
A
∈R
n
×
m
是主动方A拥有的数据集,X
B
∈R
n
×
m
是被动方B拥有的数据集,每一方都拥有X=(X
A
,X
B
)的公共样本ID上的数据特征的不相交子集;
[0013]3、进一步,使用隐私保护实体解析协议进行标识对齐操作,即使用加密长期密钥(CLK)匿名链接代码,CLK是多个个人标识符的布隆过滤器编码,在来自数据方X
A
,X
B
被接收,VFL Server通过计算所有可能的CLK对的Dice系数来匹配它们,从而产生等于数据集大小乘积的比较次数,以贪婪的方式选择最相似的配对作为匹配;
[0014]4、进一步,使用一种分类交叉熵损失函数的方法,即主要用于度量两个概率分布间的差异性信息,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数,对于离散变量情况下的交叉熵的计算方式为损失函数对目标的导数也就是梯度的计算运用链式法则计算公式为:
[0015]5、进一步,使用半同态加密系统,即任何一方都可以使用已知的公钥加密它们的数据,并使用其他人使用相同公钥加密的数据进行计算,要提取明文,需要将结果发送给私钥的持有者,用来表示对明文u的同态加密结果,定义同态加密的两个基本操作,分别是加法同态加密和乘法同态加密,而“+”和“·”表示运算符,对于在明文空间M中的任意两个元素u和v,其加法同态运算满足:同理乘法同态加密满足:其中Dec
sk
(
·
)表示使用私钥sk作为解密密钥的解密函数;
[0016]6、进一步,其2PC纵向联邦学习系统架构包括:VFL Server服务端、本地客户端分为主动方A和被动方B,VFL Server是一个纵向联邦学习服务器,主要用于协助双方联合训练各自模型并更新迭代,主动方A不仅拥有相应的数据集X
A
还拥有数据的标签y,被动方B只拥有数据集X
B
,主动方A和被动方B不能直接交换数据,而只有本地预测的标签y可以越过隐私障碍到达VFL服务器,此外VFL系统的训练过程一般由加密实体对齐和加密模型训练两部分组成。
[0017]与现有技术相比,本方法的优点在于:
[0018]提出了一种基于三方同态加密纵向联邦学习的模型保护方法,各参与方采用隐私保护实体对齐技术获得共同ID,以此确保双方不会暴露各自原始数据;一种分类交叉熵损失函数在客户端部署基于梯度的优化器,最小化针对标签的分类交叉熵损失,这保证了计算效率;然而由于主动方A存储的标签不能离开本地,采用半同态加密进行加解密双方交换的部分梯度,这确保了足够的隐私性。
附图说明
[0019]图1是本专利技术所述方法的流程框图;
[0020]图2是本专利技术具有分类交叉熵损失的纵向联邦学习算法序列图;
[0021]图3是本专利技术带有VFL Server服务端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三方同态加密纵向联邦学习的模型保护方法,所述方法至少包括以下步骤:步骤一、通过将数据集拆分为图像数据集和标签数据集来创建垂直分区的数据集,给每个数据点(图像和标签)分配一个唯一的ID空间;步骤二、根据纵向联邦学习中的主动方A和被动方B唯一的ID空间采用隐私保护实体解析协议进行标识对齐操作,找出参与者共享的ID空间I,也就是标识的交集;步骤三、利用共有的样本ID空间I对本地模型进行训练,服务端VFL Server将共享ID空间I分成大小为n的批次,被动方B生成公私钥对(pk,sk),并把公钥pk发送给主动方A,被动方B计算自身共享模型的概率分布输出,使用半同态加密的公钥对部分梯度进行加密,然后将概率分布输出和加密梯度一同发送给主动方A;步骤四、主动方A计算自身共享模型的概率分布输出,计算平均共享模型概率分布,求得最小化针对标签的分类交叉熵损失,计算自身梯度,通过具有梯度的指定优化器更新客户端权重,然后将损失函数发送服务端VFL Server并记录下来;步骤五、主动方A通过加密的部分梯度组合得到被动方B的加密梯度值,然后将加密后的梯度发送回给第二参与方,随后被动方B使用私钥sk解密得到梯度,被动方B通过具有梯度的指定优化器更新客户端权重,联邦学习训练过程直到模型收敛或者达到最大迭代才予以终止。2.根据权利要求1所述的一种基于三方同态加密纵向联邦学习的模型保护方法,其特征在于:所述的创建垂直分区的数据集,即数据集被垂直分区并分布在两个诚实但好奇的隐私参与方A(具有特征和标签的访客数据提供者)和B(仅具有特征的主机数据提供者)上,X∈R
n
×
m
为由m个数据样本组成的数据集,每个实例具有N个特征,所以X
A
∈R
n
×
m
是主动方A拥有的数据集,X
B
∈R
n
×
m
是被动方B拥有的数据集,每一方都拥有X=(X
A
,X
B
)的公共样本ID上的数据特征的不相交子集。3.根据权利要求1所述的一种基于三方同态加...

【专利技术属性】
技术研发人员:裴廷睿马盛豪李哲涛曹江莲李艳春龙赛琴
申请(专利权)人:湘潭大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1