一种多模态联邦学习的隐私保护方法及系统技术方案

技术编号:37052466 阅读:11 留言:0更新日期:2023-03-29 19:29
本发明专利技术涉及一种多模态联邦学习的隐私保护方法及系统,包括以下步骤:对于仅包含图像数据的客户端,采用基于差分隐私生成对抗网络算法对其图像数据进行处理,得到图像数据的图像特征F

【技术实现步骤摘要】
一种多模态联邦学习的隐私保护方法及系统


[0001]本专利技术涉及联邦学习
,更具体地,涉及一种多模态联邦学习的隐私保护方法及系统。

技术介绍

[0002]随着国家大数据战略的推进,依赖大数据发展的机器学习技术被广泛地应用于物联网、交通等领域。以深度学习为首的数据挖掘技术不断升级迭代,使得关联分析结果愈发精准、适用数据类型不断扩展,孕育并产生了以多模态学习为典型代表的多种融合分析技术。学术上,每一种信息的来源或形式都可称之为一种模态,包括图像、音频、文本以及传感器数据等。多模态学习是指通过机器学习方法对多源模态信息进行处理和理解,该技术利用多模态数据之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习已经应用在无人驾驶、视频分析、情绪识别等领域。然而,多模态学习在大数据应用推广中遇到了两个核心关键问题:一是传统多模态学习方式需要由服务器收集用户的原始数据后进行集中训练。但是用户原始数据与用户个体紧密相关,可能直接包含敏感信息,如个人年龄、性别等。更为严重的是多模态学习可以关联分析出更多的隐私信息。二是多模态学习中各参与方不愿意直接分享原始数据,存在数据孤岛问题。中央服务器无法收集足够的数据,从而阻碍了多模态技术的发展。
[0003]面对多模态学习中隐私安全和数据孤岛的挑战,现有技术一设计了一种多模态联邦学习模型,在客户端中对所有模态数据进行模态对齐和模态融合,提交给服务器多模态模型的参数信息,然而这种方案要求各客户端中数据同分布且包含所有模态数据。现有技术二设计了对齐、集成和映射网络,实现了多模态联邦学习框架,通过注意力机制从图像提取出的视觉和文本特征转换成细粒度图像表征,然而客户端直接将图像特征上传给服务器,不能保证隐私安全。
[0004]以上现有技术的缺陷是:1)传统的联邦学习架构应用在多模态联邦学习,要求各客户端中数据同分布且包含所有模态数据,这个条件假设过强,客户端数据模态不协调则不能进行联邦;2)利用服务器辅助客户端进行不同模态间的对齐和融合进行多模态联邦学习的方式,尽管避免了直接分享数据,但是可以通过上传的特征推理出用户的原始数据,不能保证隐私安全。

技术实现思路

[0005]本专利技术为解决现有技术提供的联邦学习架构存在的条件假设过强、不能保证隐私安全的技术缺陷,提供了一种多模态联邦学习的隐私保护方法。
[0006]为实现以上专利技术目的,采用的技术方案是:一种多模态联邦学习的隐私保护方法,包括以下步骤:S1.服务器公布参与训练的各个客户端,所述客户端仅包含图像数据或仅包含文本数据或同时包含图像数据及文本数据;
S2.对于仅包含图像数据的客户端,采用基于差分隐私生成对抗网络算法对其图像数据进行处理,得到图像数据的图像特征F
v
,并上传到服务器中;S3.对于仅包含文本数据的客户端,采用基于本地化差分隐私的敏感词替换算法对其文本数据进行处理,得到文本特征F
t
,并上传到服务器中;S4.对于同时包含图像数据、文本数据的客户端,分别通过第一自动编码器、第二自动编码器对图像数据、文本数据进行对齐,向第一自动编码器、第二自动编码器中间层生成的图像特征F'
v
、文本特征F'
t
分别添加ε

差分隐私保护的拉普拉斯噪声;将添加噪声后的图像特征F'
v
、文本特征F'
t
上传到服务器中;S5.服务器使用特征融合网络学习客户端上传的图像特征F
v
、文本特征F
t
、图像特征F'
v
、文本特征F'
t
的模态间特征;得到多模态模型;S6.服务器向各个客户端公布多模态模型。
[0007]优选地,对于仅包含图像数据的客户端,采用基于差分隐私生成对抗网络算法对其图像数据进行处理,得到图像数据的图像特征F
v
,具体包括:S21.客户端利用随机生成器生成随机向量R=(r1,

,r
k
),k表示随机向量R的维度;将随机向量输入到生成对抗网络的生成器神经网络中,得到假数据d'
v
;S22.将客户端的图像数据d
v
与假数据d'
v
分别输入到生成对抗网络的判别器神经网络中,判别器神经网络分别输出M(d
v
)与M(d'
v
),M(d
v
)、M(d'
v
)分别表示判别器神经网络输出的结果,若M(d
v
)与M(d'
v
)满足以下条件,则输出假数据d'
v
,执行步骤S24;否则执行步骤S23;。
[0008]其中,γ为隐私参数;表示判别器神经网络输出同一结果的概率;S23.判别器向梯度θ中添加(ε,δ)

差分隐私保护,并返回至生成对抗网络的生成器神经网络中,生成对抗网络的生成器神经网络重新生成假数据d'
v
,然后执行步骤S22;S24.对输出的假数据d'
v
,将之输入至CNN网络中,得到图像数据的图像特征F
v

[0009]优选地,判断器向梯度θ中添加(ε,δ)

差分隐私保护,具体为:。
[0010]其中,ε为第一隐私预算,δ为第二隐私预算;R()为第一扰动函数,S表示为梯度θ经过扰动后得到扰动结果,Pr[R(θ)∈S)]表示为求取R(θ)被泄露的概率,表示在θ邻域范围内的梯度参数集合。
[0011]优选地,对于仅包含文本数据的客户端,采用基于本地化差分隐私的敏感词替换算法对其文本数据进行处理,得到文本特征F
t
,具体包括:S31.客户端构建敏感属性词字典D
Attr
;S32.利用同义词语料库生成候选词字典D
Cand
,计算候选词字典D
Cand
中每个词与敏感属性词字典D
Attr
中每个词的欧氏距离;S33.将文本数据中所有的敏感词替换为候选词,替换的概率满足基于本地化差分隐私的敏感词替换算法的随机响应概率;
S34.对敏感词替换后的文本数据中的每个词W
i
使用词嵌入得到向量w
i
=Embed(W
i
),将向量w
i
输入至LSTM网络中,得到文本特征F
t

[0012]优选地,计算候选词字典D
Cand
中每个词与敏感属性词字典D
Attr
中每个词的欧氏距离,具体包括:。
[0013]其中,vec1、vec2分别为候选词字典D
Cand
、敏感属性词字典D
Attr
中的词向量,vec1=(x1,

,x
n
),vec2=(y1,

,y
n本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态联邦学习的隐私保护方法,其特征在于:包括以下步骤:S1.服务器公布参与训练的各个客户端,所述客户端仅包含图像数据或仅包含文本数据或同时包含图像数据及文本数据;S2.对于仅包含图像数据的客户端,采用基于差分隐私生成对抗网络算法对其图像数据进行处理,得到图像数据的图像特征F
v
,并上传到服务器中;S3.对于仅包含文本数据的客户端,采用基于本地化差分隐私的敏感词替换算法对其文本数据进行处理,得到文本特征F
t
,并上传到服务器中;S4.对于同时包含图像数据、文本数据的客户端,分别通过第一自动编码器、第二自动编码器对图像数据、文本数据进行对齐,向第一自动编码器、第二自动编码器中间层生成的图像特征F'
v
、文本特征F'
t
分别添加ε

差分隐私保护的拉普拉斯噪声;将添加噪声后的图像特征F'
v
、文本特征F'
t
上传到服务器中;S5.服务器使用特征融合网络学习客户端上传的图像特征F
v
、文本特征F
t
、图像特征F'
v
、文本特征F'
t
的模态间特征;得到多模态模型;S6.服务器向各个客户端公布多模态模型。2.根据权利要求1所述的多模态联邦学习的隐私保护方法,其特征在于:对于仅包含图像数据的客户端,采用基于差分隐私生成对抗网络算法对其图像数据进行处理,得到图像数据的图像特征F
v
,具体包括:S21.客户端利用随机生成器生成随机向量R=(r1,

,r
k
),k表示随机向量R的维度;将随机向量输入到生成对抗网络的生成器神经网络中,得到假数据d'
v
;S22.将客户端的图像数据d
v
与假数据d'
v
分别输入到生成对抗网络的判别器神经网络中,判别器神经网络分别输出M(d
v
)与M(d'
v
),M(d
v
)、M(d'
v
)分别表示判别器神经网络输出的结果,若M(d
v
)与M(d'
v
)满足以下条件,则输出假数据d'
v
,执行步骤S24;否则执行步骤S23;;其中,γ为隐私参数;表示判别器神经网络输出同一结果的概率;S23.判别器向梯度θ中添加(ε,δ)

差分隐私保护,并返回至生成对抗网络的生成器神经网络中,生成对抗网络的生成器神经网络重新生成假数据d'
v
,然后执行步骤S22;S24.对输出的假数据d'
v
,将之输入至CNN网络中,得到图像数据的图像特征F
v
。3.根据权利要求2所述的多模态联邦学习的隐私保护方法,其特征在于:判断器向梯度θ中添加(ε,δ)

差分隐私保护,具体为:;其中,ε为第一隐私预算,δ为第二隐私预算;R()为第一扰动函数,S表示为梯度θ经过扰动后得到扰动结果,Pr[R(θ)∈S)]表示为求取R(θ)被泄露的概率;表示在θ邻域范围内的梯度参数集合。4.根据权利要求1所述的多模态联邦学习的隐私保护方法,其特征在于:对于仅包含文本数据的客户端,采用基于本地化差分隐私的敏感词替换算法对其文本数据进行处理,得
到文本特征F
t
,具体包括:S31.客户端构建敏感属性词字典D
Attr
;S32.利用同义词语料库生成候选词字典D
...

【专利技术属性】
技术研发人员:李昕
申请(专利权)人:广州优刻谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1