当前位置: 首页 > 专利查询>广州大学专利>正文

一种多模态数据融合训练中的隐私参数优化方法技术

技术编号:35512726 阅读:16 留言:0更新日期:2022-11-09 14:28
本发明专利技术公开了一种多模态数据融合训练中的隐私参数优化方法,包括以下步骤:S1:客户端用户对隐私保护效果进行设定;S2:客户端针对文本、图像、音频的各类型数据使用对应的隐私保护方法进行脱敏处理,对脱敏处理后的数据进行单独模态的分类训练;S3:得出包含敏感数据准确率和非敏感数据准确率的各模态的分类准确率,判断敏感数据准确率是否满足用户需求;S4:基于权重自分配算法完成信息融合,得出最终的目标分类结果及敏感信息分类结果acc

【技术实现步骤摘要】
一种多模态数据融合训练中的隐私参数优化方法


[0001]本专利技术涉及多模态学习、隐私保护
,具体为一种针对多模态深度学习隐私保护的数据可用性优化方法。

技术介绍

[0002]多模态深度学习的目标是创建可以使用各种模态处理和链接信息的模型。单模态学习虽然得到了广泛的发展,但还不能涵盖人类学习的所有方面。多模态学习有助于更好地理解和分析不同感官参与信息处理的过程。多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单模态模型。
[0003]多模态学习中一般针对各个模态进行分别隐私保护。比如多模态专利殷丽华等提出一个面向多模态深度学习的隐私保护方法,根据不同隐私保护场景、不同模态数据有针对性地设计了不同的隐私保护方法,在保证业务任务准确率的前提下,有效实现用户隐私保护。但是为数据添加隐私保护时,由于多种隐私保护机制叠加,导致融合训练时出现数据可用性危机,而此类方法并未在数据可用性和隐私保护效果之间做出权衡,使数据可用性与保护效果达到最佳范围。
[0004]总的来说,现有技术的问题在于:部分多模态深度学习任务加入了隐私保护手段,但是有可能由于过于强调隐私保护效果而大幅降低数据的可用性,造成多模态分析结果低于单模态分析结果的准确率。此类方法并不能保证数据可用性与保护效果达到最佳范围。

技术实现思路

[0005]有鉴于现有问题,本专利技术的目的在于提供一种多模态数据融合训练中的隐私参数优化方法,以解决上述问题。
[0006]本专利技术提供如下的技术方案:
[0007]一种多模态数据融合训练中的隐私参数优化方法,包括以下步骤:S1:客户端用户对隐私保护效果进行设定;S2:客户端针对文本、图像、音频的各类型数据使用对应的隐私保护方法进行脱敏处理,对脱敏处理后的数据进行单独模态的分类训练,得到目标训练结果acc
T
,acc
A
,acc
V
;S3:得出包含敏感数据准确率和非敏感数据准确率的各模态的分类准确率,进行局部反馈判断敏感数据准确率是否满足用户需求;若敏感数据准确率高于用户设定的敏感数据准确率上限,则分别记录并调整当前文本、音频、图像的隐私参数θ
t
,∈,θ回退至步骤S2,根据调整情况记录θ
tmin
,∈
max

min
;若敏感数据准确率满足用户需求则将加入隐私保护后的数据及分类结果上传至服务器;S4:基于权重自分配算法完成信息融合,得出最终的目标分类结果及敏感信息分类结果acc
ns
,acc
s
;S5:服务器分别对敏感及非敏感数据分类结果进行评估,根据评估结果向客户端进行整体反馈,调整并记录隐私参数,回退到步骤S2。
[0008]步骤S1中的设定包括设定敏感信息保护项目和用户可接受的分类器对设定敏感
信息识别准确率的阈值。
[0009]步骤S2中脱敏处理需缓存当前脱敏数据,并处理后期步骤提供的反馈信息,脱敏处理包括以下模块:文本脱敏模块、音频脱敏模块、图像脱敏模块。
[0010]优选地,文本脱敏模块包括以下操作:设置隐私参数θ
t
,为每个敏感词类型分配一个敏感词库,以隐私参数θ
t
为比重,将采集的文本数据与θ
t
比例的敏感词库进行对照,若符合则对该敏感词进行替换,替换为无关信息,并将原始信息保留,用于接受反馈后进行处理;若局部反馈高于用户设置的敏感信息识别准确率阈值,则将文本敏感词范围参数θ
t
调大,并将原始参数记录为下限θ
tmin
,利用原始数据重新进行脱敏处理。
[0011]优选地,音频脱敏模块通过差分隐私机制,根据隐私预算参数为音频添加基于差分隐私的高斯噪声,并将原始信息保留,用于接收反馈后进行处理,若局部反馈高于用户设置的敏感信息识别准确率阈值,则将音频的隐私预算参数∈调小,并将原始参数记录为上限∈
max
,利用原始数据重新添加高斯噪声。
[0012]优选地,图像脱敏模块根据隐私预算参数通过对抗算法对图像特征方面进行加噪,并将原始数据保留,用于接受反馈后进行处理,若局部反馈高于用户设置的敏感信息识别准确率阈值,则将图像的扰动参数θ调大,并将原始参数记录为下限θ
min
,利用原始数据重新加噪。
[0013]步骤S3中调整记录的操作若为调大隐私参数则记录为下限,调小隐私参数则记录为上限;文本、音频、图像分别对应调整文本敏感词范围、差分隐私中的隐私预算、图像中的扰动大小。
[0014]优选地,步骤S4中权重自分配算法包括:
[0015]基于注意力机制分配权重:通过协方差描述不同模态的相似性,依据与注意力关注对象的相关程度设计打分函数,给每个模态计算一个score,对所得到的score,通过一个softmax函数,得到最后的权重:
[0016]α
i
=softmax(s
i
);
[0017]基于强化学习一般建模过程更新权重:通过融合函数f(x)=WX,计算最优解其中W为权重矩阵,X为各模态数据。
[0018]步骤S5的评估方法通过将acc
ns
与acc
T
,acc
A
,acc
V
进行比较,确保多模态融合后的分类结果大于单个模态分类结果。
[0019]步骤S5的所述评估方法中,若分类结果小于单个模态分类结果,则判定分类失败,向客户端发送包含整体非敏感准确率、分类结果参数F
ns
和敏感信息准确率acc
s
,客户端根据分类失败结果依次调小敏感词范围、调大隐私预算、调小扰动大小,并记录原始参数为θ
tmax
,∈
min

max
,回退到步骤S2;若判定为分类成功,则继续比较敏感信息准确率acc
s
和用户设定的敏感数据准确率上限,若高于上限则依次调大敏感词范围、调小隐私预算、调大扰动大小,并记录原始参数为θ
tmin
,∈
max

min
,回退到步骤S2。
[0020]本专利技术的有益技术效果在于:
[0021]本专利技术提供的多模态数据融合训练中的隐私参数优化方法,与普通的多模态深度学习隐私保护方法相比,通过基于反馈机制的多模态隐私保护训练策略有效地提高了最终分类结果的准确性,在满足用户隐私保护需求的情况下实现准确率的最佳范围;此外,通过
有针对性地设置阈值和不同的权重组合,均衡的提高了分类准确率。
附图说明
[0022]图1是本专利技术提供的多模态数据融合训练中的隐私参数反馈方法的流程示意图;
[0023]图2是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态数据融合训练中的隐私参数优化方法,其特征在于,包括以下步骤:S1:客户端用户对隐私保护效果进行设定;S2:客户端针对文本、图像、音频的各类型数据使用对应的隐私保护方法进行脱敏处理,对脱敏处理后的数据进行单独模态的分类训练,得到目标训练结果acc
T
,acc
A
,acc
V
;S3:得出包含敏感数据准确率和非敏感数据准确率的各模态的分类准确率,进行局部反馈判断敏感数据准确率是否满足用户需求;若敏感数据准确率高于用户设定的敏感数据准确率上限,则分别记录并调整当前文本、音频、图像的隐私参数θ
t
,∈,θ回退至步骤S2,根据调整情况记录θ
tmin
,∈
max
,θ
min
;若敏感数据准确率满足用户需求则将加入隐私保护后的数据及分类结果上传至服务器;S4:基于权重自分配算法完成信息融合,得出最终的目标分类结果及敏感信息分类结果acc
ns
,acc
s
;S5:服务器分别对敏感及非敏感数据分类结果进行评估,根据评估结果向客户端进行整体反馈,调整并记录隐私参数,回退到步骤S2。2.根据权利要求1所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述步骤S1中所述设定包括设定敏感信息保护项目和用户可接受的分类器对设定敏感信息识别准确率的阈值。3.根据权利要求1所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述步骤S2中所述脱敏处理需缓存当前脱敏数据,并处理后期步骤提供的反馈信息,所述脱敏处理包括以下模块:文本脱敏模块、音频脱敏模块、图像脱敏模块。4.根据权利要求3所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述文本脱敏模块包括以下操作:设置隐私参数θ
t
,为每个敏感词类型分配一个敏感词库,以隐私参数θ
t
为比重,将采集的文本数据与θ
t
比例的敏感词库进行对照,若符合则对该敏感词进行替换,替换为无关信息,并将原始信息保留,用于接受反馈后进行处理;若局部反馈高于用户设置的敏感信息识别准确率阈值,则将文本敏感词范围参数θ
t
调大,并将原始参数记录为下限θ
tmin
,利用原始数据重新进行脱敏处理。5.根据权利要求3所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述音频脱敏模块通过差分隐私机制,根据隐私预算参数为音频添加基于差分隐私的高斯噪声,并将原始信息保留,用于接收反馈后进行处理,若局部反馈高于用户设置的敏感信息识别准确率阈值,则将音频的隐私预...

【专利技术属性】
技术研发人员:孙哲殷丽华王思敏方滨兴韩伟红张美范李然
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1