【技术实现步骤摘要】
一种多模态数据融合训练中的隐私参数优化方法
[0001]本专利技术涉及多模态学习、隐私保护
,具体为一种针对多模态深度学习隐私保护的数据可用性优化方法。
技术介绍
[0002]多模态深度学习的目标是创建可以使用各种模态处理和链接信息的模型。单模态学习虽然得到了广泛的发展,但还不能涵盖人类学习的所有方面。多模态学习有助于更好地理解和分析不同感官参与信息处理的过程。多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单模态模型。
[0003]多模态学习中一般针对各个模态进行分别隐私保护。比如多模态专利殷丽华等提出一个面向多模态深度学习的隐私保护方法,根据不同隐私保护场景、不同模态数据有针对性地设计了不同的隐私保护方法,在保证业务任务准确率的前提下,有效实现用户隐私保护。但是为数据添加隐私保护时,由于多种隐私保护机制叠加,导致融合训练时出现数据可用性危机,而此类方法并未在数据可用性和隐私保护效果之间做出权衡,使数据可用性与保护效果达到最佳范围。
[0004]总的来说,现有技术的问题在于:部分多模态深度学习任务加入了隐私保护手段,但是有可能由于过于强调隐私保护效果而大幅降低数据的可用性,造成多模态分析结果低于单模态分析结果的准确率。此类方法并不能保证数据可用性与保护效果达到最佳范围。
技术实现思路
[0005]有鉴于现有问题,本专利技术的目的在于提供一种多模态数据融合训练中 ...
【技术保护点】
【技术特征摘要】
1.一种多模态数据融合训练中的隐私参数优化方法,其特征在于,包括以下步骤:S1:客户端用户对隐私保护效果进行设定;S2:客户端针对文本、图像、音频的各类型数据使用对应的隐私保护方法进行脱敏处理,对脱敏处理后的数据进行单独模态的分类训练,得到目标训练结果acc
T
,acc
A
,acc
V
;S3:得出包含敏感数据准确率和非敏感数据准确率的各模态的分类准确率,进行局部反馈判断敏感数据准确率是否满足用户需求;若敏感数据准确率高于用户设定的敏感数据准确率上限,则分别记录并调整当前文本、音频、图像的隐私参数θ
t
,∈,θ回退至步骤S2,根据调整情况记录θ
tmin
,∈
max
,θ
min
;若敏感数据准确率满足用户需求则将加入隐私保护后的数据及分类结果上传至服务器;S4:基于权重自分配算法完成信息融合,得出最终的目标分类结果及敏感信息分类结果acc
ns
,acc
s
;S5:服务器分别对敏感及非敏感数据分类结果进行评估,根据评估结果向客户端进行整体反馈,调整并记录隐私参数,回退到步骤S2。2.根据权利要求1所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述步骤S1中所述设定包括设定敏感信息保护项目和用户可接受的分类器对设定敏感信息识别准确率的阈值。3.根据权利要求1所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述步骤S2中所述脱敏处理需缓存当前脱敏数据,并处理后期步骤提供的反馈信息,所述脱敏处理包括以下模块:文本脱敏模块、音频脱敏模块、图像脱敏模块。4.根据权利要求3所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述文本脱敏模块包括以下操作:设置隐私参数θ
t
,为每个敏感词类型分配一个敏感词库,以隐私参数θ
t
为比重,将采集的文本数据与θ
t
比例的敏感词库进行对照,若符合则对该敏感词进行替换,替换为无关信息,并将原始信息保留,用于接受反馈后进行处理;若局部反馈高于用户设置的敏感信息识别准确率阈值,则将文本敏感词范围参数θ
t
调大,并将原始参数记录为下限θ
tmin
,利用原始数据重新进行脱敏处理。5.根据权利要求3所述的多模态数据融合训练中的隐私参数优化方法,其特征在于,所述音频脱敏模块通过差分隐私机制,根据隐私预算参数为音频添加基于差分隐私的高斯噪声,并将原始信息保留,用于接收反馈后进行处理,若局部反馈高于用户设置的敏感信息识别准确率阈值,则将音频的隐私预...
【专利技术属性】
技术研发人员:孙哲,殷丽华,王思敏,方滨兴,韩伟红,张美范,李然,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。