增强隐私保护的多中心联邦学习方法及计算机设备技术

技术编号:34953542 阅读:16 留言:0更新日期:2022-09-17 12:31
本发明专利技术公开了一种增强隐私保护的多中心联邦学习方法,该方法包括:客户端接收由服务器生成Paillier算法密钥{n,g,λ}中的公钥{n,g};客户端接收由服务器建立的全局参数模型,对客户端归类,并对归类信息和模型参数进行加密发送到服务器进行计算和解码;对客户端分组,由客户端接收模型参数并调整归类,然后对归类信息和梯度参数或者模型参数进行加密,并在组内在密文上进行初步聚合后发送至服务器,由服务器解密后做进一步聚合,得出新一轮的模型参数。该方法将Paillier加密方法和保密的欧几里得距离计算方法推广到实数范围,并通过对模型参数或者梯度参数以及类别信息进行加密并在密文上进行计算的方式增强隐私保护。并在密文上进行计算的方式增强隐私保护。并在密文上进行计算的方式增强隐私保护。

【技术实现步骤摘要】
增强隐私保护的多中心联邦学习方法及计算机设备


[0001]本专利技术涉及计算机
,尤其涉及一种增强隐私保护的多中心联邦学习方法及计算机设备。

技术介绍

[0002]随着智能终端设备的快速普及,大量的个人信息数据被各种网络平台所采集。而在现实生活中,个人信息的泄露已屡见不鲜。近年来,不仅个人对隐私数据愈发关注,政府部门也相继出台了网络个人隐私保护和网络安全方面的法律法规。传统的机器学习需要先把信息都收集到中心服务器,客户端的隐私数据很容易遭到泄露。联邦学习作为一种分布式的机器学习模式,它不需要让数据离开本地客户端,进而对数据的隐私起到保护作用。在联邦学习中,由于数据来源于各种各样的终端设备,会很自然地产生数据异质性问题,也就是说这些数据是非独立同分布的(non

IID)。在推荐系统和个性化广告投放等应用中,利用数据异质性尤为关键,这对用户和企业都有好处。比较早的联邦学习方法中,所有的用户数据都带入同一个全局模型中训练,训练完成之后,所有的用户也都使用同一个模型进行预测。这种做法将non

IID的数据作为独立同分布的数据进行了处理,忽略了用户数据之间的差异,从而不能产生一些个性化的预测。
[0003]许多学者采取建立多个全局模型的方式,对non

IID的用户数据进行联邦学习,称此方法为多中心联邦学习。Lu Yu等人先利用用户数据的一些统计特征对用户聚类,把属于同一类别的用户数据看做是独立同分布的,在每个类别内建立一个全局模型进行训练。Felix Sattler等人使用联邦损失表面的几何特性对用户群体聚类,并在每个类别内进行联邦学习。Lu Yu和Felix Sattler等人只对每个客户端进行了一次聚类,如果聚类的不合适,后续并没有相应地修正机制,进而导致最终的训练模型产生偏差。Ming Xie等人首先建立多个模型(每个模型代表一个类别),每一轮训练后,根据用户模型参数与每个类别模型参数的距离,对用户归类,对属于同一类别的用户的模型参数进行聚合。但是在神经网络中,对于两个相似的模型其参数可能相差很远,所以这种归类方式并不一定合理。Avishek Ghosh等人也首先建立多个模型(每个模型代表一个类别),每一轮训练过程中,用户将数据带入这些模型,得到多个本地损失函数,此用户被归类到损失函数最小的模型的类别中。并且作者还给出了在一些条件下算法收敛性的证明。但是Le Trieu Phong等人指出,共享本地梯度或者模型数据会导致隐私的泄露,而以上所有的多中心联邦学习算法都是直接将用户的梯度参数或者模型参数直接发送到服务器,隐私信息容易被其他用户通过监听获取。并且在以上算法中,对客户端的归类情况同样没有进行保护。
[0004]保护数据隐私常用的手段是数据加密技术,在Avishek Ghosh等人的基础上采用加密技术对用户隐私信息(包括用户的归类情况)进行保护。在联邦学习中,模型参数上传到服务器后需要进行聚合,而聚合主要使用的运算是加法运算,因此选取满足加法同态的Paillier加密方法对用户隐私信息(包括模型参数和所属类别)加密,然后再进行一些参数传递和计算,进而起到保护用户隐私信息的目的。

技术实现思路

[0005]有鉴于此,本专利技术实施例的目的在于提出一种基增强隐私保护的多中心联邦学习方法。该方法对客户端进行分组,并使用满足加法同态的Paillier算法对模型参数或者梯度参数以及类别信息进行加密,然后在每个小组内在密文上进行初步计算,最后才将结果汇总到服务器,由服务器进行总体的聚合。
[0006]基于上述目的,本专利技术实施例的一方面提供了一种增强隐私保护的多中心联邦学习方法。该方法包括:客户端接收由服务器生成Paillier算法密钥{n,g,λ}中的公钥{n,g};客户端接收由服务器建立的全局参数模型,根据本地训练结果对客户端归类,并对归类信息和模型参数进行加密发送到服务器,由服务器进行计算和解码以得出多中心联邦学习算法模型参数的初始值;以及对客户端分组,由客户端接收模型参数,根据所属类别训练对应的模型,并调整归类,然后对归类信息和梯度参数或者模型参数进行加密,并在组内采用梯度平均或者模型平均的方法在密文上进行初步聚合后,将结果发送至服务器,由服务器对初步聚合结果解密后做进一步聚合,得出新一轮的模型参数。
[0007]在一些实施方式中,客户端接收由服务器建立的全局参数模型,根据本地训练结果对客户端归类,并对归类信息和模型参数进行加密发送到服务器,由服务器进行计算和解码以得出多中心联邦学习算法模型参数的初始值包括:向客户端发送由服务器建立的全局参数模型,且全局参数模型的模型参数为
[0008]在每个客户端进行模型训练,得到每个客户端初步的模型参数
[0009]从全部客户端中随机选取k个客户端,设定k个客户端的索引为i1,

,i
k
,根据其他客户端的模型参数与k个客户端模型参数的保密的欧几里得距离对客户端归类;
[0010]在其他客户端中选取一个客户端,采用保密的欧几里得距离计算方法,计算选取的客户端与第i1,

,i
k
客户端模型参数的距离,若选取的客户端与第i
t
个客户端模型参数的距离最小,就将选取的客户端归到第t类,并将所属的类别信息以及与第i
t
个客户端模型参数的距离发送至第i
t
个客户端;
[0011]对其他客户端中其余的客户端采用同样的方法完成归类;
[0012]分别取t=1,

,k,执行下面的操作:
[0013]第i
t
个客户端统计属于第t类的客户端的个数M
t
,将其发送至属于第t类的客户端,并记录第i
t
个客户端与第t类内其他客户端的最大距离dis
t
,其中第t类的客户端的索引集合为L
t

[0014]每个第t类的客户端用模型参数除以对应类别的客户端个数M
t
,将其加密后的结果发送给第i
t
个客户端;
[0015]第i
t
个客户端将第t类内所有的加密结果相乘得到
[0016]将和dis
t
发送至服务器进行解密,得到发送至服务器进行解密,得到
[0017]获取本轮dis
t
,t=1,

,k中的最大值dist;
[0018]重复上述步骤,选择dist最小一轮的结果作为多中心联邦学习算法的初始值。
[0019]在一些实施方式中,Paillier算法的加密过程包括:
[0020]选择两个素数p,q,设n=pq,λ=lcm(p

1,q

1),且满足gcd(λ,n)=1,其中,lcm(p

1,q

1)表示p

1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强隐私保护的多中心联邦学习方法,其特征在于,包括:客户端接收由服务器生成Paillier算法密钥{n,g,λ}中的公钥{n,g};客户端接收由服务器建立的全局参数模型,根据本地训练结果对客户端归类,并对归类信息和模型参数进行加密发送到服务器,由服务器进行计算和解码以得出多中心联邦学习算法模型参数的初始值;以及对客户端分组,由客户端接收模型参数,根据所属类别训练对应的模型,并调整归类,然后对归类信息和梯度参数或者模型参数进行加密,并在组内采用梯度平均或者模型平均的方法在密文上进行初步聚合后,将结果发送至服务器,由服务器对初步聚合结果解密后做进一步聚合,得出新一轮的模型参数。2.根据权利要求1所述的增强隐私保护的多中心联邦学习方法,其特征在于,客户端接收由服务器建立的全局参数模型,根据本地训练结果对客户端归类,并对归类信息和模型参数进行加密发送到服务器,由服务器进行计算和解码以得出多中心联邦学习算法模型参数的初始值包括:向客户端发送由服务器建立的全局参数模型,且全局参数模型的模型参数为在每个客户端进行模型训练,得到每个客户端初步的模型参数从全部客户端中随机选取k个客户端,设定k个客户端的索引为i1,

,i
k
,根据其他客户端的模型参数与k个客户端模型参数的保密的欧几里得距离对客户端归类;在其他客户端中选取一个客户端,采用保密的欧几里得距离计算方法,计算选取的客户端与第i1,

,i
k
客户端模型参数的距离,若选取的客户端与第i
t
个客户端模型参数的距离最小,就将选取的客户端归到第t类,并将所属的类别信息以及与第i
t
个客户端模型参数的距离发送至第i
t
个客户端;对其他客户端中其余的客户端采用同样的方法完成归类;分别取t=1,

,k,执行下面的操作:第i
t
个客户端统计属于第t类的客户端的个数M
t
,将其发送至属于第t类的客户端,并记录第i
t
个客户端与第t类内其他客户端的最大距离dis
t
,其中第t类的客户端的索引集合为L
t
;每个第t类的客户端用模型参数除以对应类别的客户端个数M
t
,将其加密后的结果发送给第i
t
个客户端;第i
t
个客户端将第t类内所有的加密结果相乘得到将和dis
t
发送至服务器进行解密,得到发送至服务器进行解密,得到获取本轮dis
t
,t=1,

,k中的最大值dist;重复上述步骤,选择dist最小一轮的结果作为多中心联邦学习算法的初始值。3.根据权利要求2所述的增强隐私保护的多中心联邦学习方法,其特征在于,Paillier算法的加密过程包括:选择两个素数p,q,设n=pq,λ=lcm(p

1,q

1),且满足gcd(λ,n)=1,其中,lcm(p

1,q

1)表示p

1和q

1的最小公倍数,gcd(λ,n)表示λ和n的最大公约数;选择g使其满足gcd(L(g
λ
modn2),n)=1,(n,g)作为公钥,λ作为私钥;
对任意的选择随机数进行加密,得到密文:c=g
m
r
n
modn2,其中,表示集合{0,1,

,n

1},表示集合中与n互素元素的集合;对任意的进行解密,得到明文:其中,对于集合S
n
={u<n2|u=1modn},定义S
n
上的函数L为E(m)表示对明文m的加密,D(c)表示对密文c的解密;根据同态原理,如果则D(E(m1)

E(m
k
))=m1+

+m
k
。4.根据权利要求3所述的增强隐私保护的多中心联邦学习方法,其特征在于,进一步包括将加密的Paillier算法的应用范围从正整数扩展到实数,将加密的Paillier算法的应用范围从正整数扩展到实数包括:加密前将数据统一乘以某一倍数S以将数据转化为整数;选取足够大的n,使转化为整数后的数据和的绝对值不超过n/2;对小于0的数据加上n,将所有的数据转化为自然数,使用所述的Paillier算法加密;在Paillier算法解密后,如果数据大于n/2,给其减去n,然后除以S,如果小于n/2,直接除以S即可得到最终的解密结果,其中,E0(m)表示扩展到实数范围对明文m的加密,D0(c)表示扩展到实数范围对密文c的解密。5.根据权利要求2所述的增强隐私保护的多中心联邦学习方法,其特征在于,保密的欧几里得距离的计算方法包括:将保密正整数向量X=(x1,

,x
n
)输入第一客户端并将保密正整数向量Y=(y1,

,y
n
)输入第二客户端,以输出f1(X,Y)=f2(X,Y)=|x1‑
y1|+

+|x
n

y
n
|;向第一客户端发送由第二客户端生成的Paillier密钥{N,g,λ}中的公钥{N,g};向第一客户端发送由第二客户端对数据x1,

,x
n
加密得到的E(x1),

,E(x
n
);通过第一客户端计算E(x1)E(y1)
‑1,

,E(x
n
)E(y
n
)
‑1并将其置换顺序后发送到服务器,其中E(y
i
)
‑1指的是E(y
i
)在乘法群中的乘法逆元;将客户端发送的每一项通过服务器进行解密,若得到的...

【专利技术属性】
技术研发人员:王小伟张旭吴睿振孙华锦王凛
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1