一种多模态联邦学习的隐私保护方法及系统技术方案

技术编号：37052466 阅读：11 留言：0更新日期：2023-03-29 19:29

本发明专利技术涉及一种多模态联邦学习的隐私保护方法及系统，包括以下步骤：对于仅包含图像数据的客户端，采用基于差分隐私生成对抗网络算法对其图像数据进行处理，得到图像数据的图像特征F

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态联邦学习的隐私保护方法及系统

[0001]本专利技术涉及联邦学习
，更具体地，涉及一种多模态联邦学习的隐私保护方法及系统。

技术介绍

[0002]随着国家大数据战略的推进，依赖大数据发展的机器学习技术被广泛地应用于物联网、交通等领域。以深度学习为首的数据挖掘技术不断升级迭代，使得关联分析结果愈发精准、适用数据类型不断扩展，孕育并产生了以多模态学习为典型代表的多种融合分析技术。学术上，每一种信息的来源或形式都可称之为一种模态，包括图像、音频、文本以及传感器数据等。多模态学习是指通过机器学习方法对多源模态信息进行处理和理解，该技术利用多模态数据之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。多模态学习已经应用在无人驾驶、视频分析、情绪识别等领域。然而，多模态学习在大数据应用推广中遇到了两个核心关键问题：一是传统多模态学习方式需要由服务器收集用户的原始数据后进行集中训练。但是用户原始数据与用户个体紧密相关，可能直接包含敏感信息，如个人年龄、性别等。更为严重的是多模态学习可以关联分析出更多的隐私信息。二是多模态学习中各参与方不愿意直接分享原始数据，存在数据孤岛问题。中央服务器无法收集足够的数据，从而阻碍了多模态技术的发展。
[0003]面对多模态学习中隐私安全和数据孤岛的挑战，现有技术一设计了一种多模态联邦学习模型，在客户端中对所有模态数据进行模态对齐和模态融合，提交给服务器多模态模型的参数信息，然而这种方案要求各客户端中数据同分布且包含所有模态数据。现有技术二设计了对齐、集成和映射网络，...

【技术保护点】

【技术特征摘要】
1.一种多模态联邦学习的隐私保护方法，其特征在于：包括以下步骤：S1.服务器公布参与训练的各个客户端，所述客户端仅包含图像数据或仅包含文本数据或同时包含图像数据及文本数据；S2.对于仅包含图像数据的客户端，采用基于差分隐私生成对抗网络算法对其图像数据进行处理，得到图像数据的图像特征F
v
，并上传到服务器中；S3.对于仅包含文本数据的客户端，采用基于本地化差分隐私的敏感词替换算法对其文本数据进行处理，得到文本特征F
t
，并上传到服务器中；S4.对于同时包含图像数据、文本数据的客户端，分别通过第一自动编码器、第二自动编码器对图像数据、文本数据进行对齐，向第一自动编码器、第二自动编码器中间层生成的图像特征F'
v
、文本特征F'
t
分别添加ε
‑
差分隐私保护的拉普拉斯噪声；将添加噪声后的图像特征F'
v
、文本特征F'
t
上传到服务器中；S5.服务器使用特征融合网络学习客户端上传的图像特征F
v
、文本特征F
t
、图像特征F'
v
、文本特征F'
t
的模态间特征；得到多模态模型；S6.服务器向各个客户端公布多模态模型。2.根据权利要求1所述的多模态联邦学习的隐私保护方法，其特征在于：对于仅包含图像数据的客户端，采用基于差分隐私生成对抗网络算法对其图像数据进行处理，得到图像数据的图像特征F
v
，具体包括：S21.客户端利用随机生成器生成随机向量R=(r1,
…
,r
k
)，k表示随机向量R的维度；将随机向量输入到生成对抗网络的生成器神经网络中，得到假数据d'
v
；S22.将客户端的图像数据d
v
与假数据d'
v
分别输入到生成对抗网络的判别器神经网络中，判别器神经网络分别输出M(d
v
)与M(d'
v
)，M(d
v
)、M(d'
v
)分别表示判别器神经网络输出的结果，若M(d
v
)与M(d'
v
)满足以下条件，则输出假数据d'
v
，执行步骤S24；否则执行步骤S23；；其中，γ为隐私参数；表示判别器神经网络输出同一结果的概率；S23.判别器向梯度θ中添加(ε,δ)
‑
差分隐私保护，并返回至生成对抗网络的生成器神经网络中，生成对抗网络的生成器神经网络重新生成假数据d'
v
，然后执行步骤S22；S24.对输出的假数据d'
v
，将之输入至CNN网络中，得到图像数据的图像特征F
v
。3.根据权利要求2所述的多模态联邦学习的隐私保护方法，其特征在于：判断器向梯度θ中添加(ε,δ)
‑
差分隐私保护，具体为：；其中，ε为第一隐私预算，δ为第二隐私预算；R()为第一扰动函数，S表示为梯度θ经过扰动后得到扰动结果，Pr[R(θ)∈S)]表示为求取R(θ)被泄露的概率；表示在θ邻域范围内的梯度参数集合。4.根据权利要求1所述的多模态联邦学习的隐私保护方法，其特征在于：对于仅包含文本数据的客户端，采用基于本地化差分隐私的敏感词替换算法对其文本数据进行处理，得
到文本特征F
t
，具体包括：S31.客户端构建敏感属性词字典D
Attr
；S32.利用同义词语料库生成候选词字典D
...

【专利技术属性】
技术研发人员：李昕，
申请(专利权)人：广州优刻谷科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人