【技术实现步骤摘要】
基于自适应深度监督模块的多模态模型对抗训练方法
[0001]本专利技术涉及模型对抗训练方法
,具体为基于自适应深度监督模块的多模态模型对抗训练方法
。
技术介绍
[0002]深度学习在现实世界中的广泛应用对模型的鲁棒性提出了极高的要求
。
例如,在医学诊断
、
自动驾驶等领域,深度学习模型必须能够正确地处理各种情况,并且不能因为输入数据的轻微扰动或恶意攻击而导致错误预测
。
由此,研究深度学习模型的鲁棒性已成为一个重要的研究方向
。
然而,以前的工作主要集中在单一的视觉或视频分类任务上对鲁棒性进行研究
。
随着多模态任务的发展和应用,多模态模型的鲁棒性研究已经变得尤为紧迫
。
因此,需要进一步研究多模态模型的鲁棒性,以确保它们能够正确地应对各种不确定性,从而在实际应用中更加可靠和安全
。
[0003]在现阶段,提高模型鲁棒性的主要方法之一是对抗训练
(AT)
,对抗训练的核心思想是在模 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
基于自适应深度监督模块的多模态模型对抗训练方法,其特征在于,所述方法具体包括以下步骤:
S1、
根据视频数据生成
skeleton
数据集;
S2、
对
S1
中所得的
skeleton
数据集进行归一化操作,采样一定的帧数
T
,不足
T
帧的补0;
S3、
对视频帧进行均匀采样,得到用于训练的
RGB
图片;
S4、
对
S3
中所得的
RGB
图片进行裁剪,并调整尺寸,得到
RGB
数据集;
S5、
将
S4
中所得的
RGB
数据集与
S2
中的
skeleton
数据集一一对应,并以字典的形式存储,得到最终集成的多模态数据集;
S6、
在
skeleton
数据集上训练用于处理骨骼数据的单模态模型
HCN
,获得模型的预训练参数;
S7、
在
RGB
数据集上训练用于处理图片数据的单模态模型
I3D
,获得模型的预训练参数;
S8、
设计自适应深度监督模块,将其与
S6、S7
中所得的单模态模型集成为一个多模态模型,然后加载
S6、S7
中所得的与训练参数;
S9、
以
S5
中所得的多模态数据集作为干净数据输入,利用
PGD
算法获得多模态的对抗样本;
S10、
将
S9
中所得的对抗样本作为训练数据输入到
S8
中所得的多模态模型中,进行前向传播;
S11、
经过前向传播获得模型的预测结果,基于预测结果计算获得一个新的目标函数,用以完成一次模型权重参数更新
。2.
根据权利要求1所述的基于自适应深度监督模块的多模态模型对抗训练方法,其特征在于,所述
S1
具体包括如下内容:使用开源的人体姿态估计库
Openpose
对视频数据中的人体骨骼关键点进行检测和提取,生成
skeleton
数据集;其中,每个所述关键点的信息由一个三维坐标点
(x
,
y
,
z)
构成,其中
x
,
y
表示该点的二维位置坐标,
z
表示置信分数,
z∈[0
,
1]
,且每个视频中最多同时有两个人物
。3.
根据权利要求1所述的基于自适应深度监督模块的多模态模型对抗训练方法,其特征在于,
S2
中所述归一化操作具体包括如下内容:对于
x
,
y
维度,分别取其绝对值中的最大值
|x|
max
,
|y|
max
,将
x
,
y
维度中每个数据都除以最大值,以保证得到的
skeleton
数据的
x
,
y
的值均分布在
[
‑1,
1]
之间
。4.
根据权利要求1所述的基于自适应深度监督模块的多模态模型对抗训练方法,其特征在于,
S5
中所述多模态数据集的
RGB
数据的输入为,其中,
B
表示
batchsize
的大小;
T
表示帧数;
C
表示
RGB
通道数;
H、W
分别表示为图像的高和宽;
S5
中所述多模态数据集的
skeleton
数据的输入为,其中,
B
表示
batchsize
的大小;
T
表示帧数;
C
表示骨骼的坐标维数;
V
表示骨骼关键点数;
M
表示视频中的人数
。5.
根据权利要求1所述的基于自适应深度监督模块的多模态模型对抗训练方法,其特征在于,
S6
中所述单模态模型
HCN
用于提取数据的特征,具体包括如下内容:
S6.1、
将骨骼关键点数据前后帧相减,得到时域上的
motion
信息,大小为,其中,
B
表示
batchsize
的大小;
T
表示帧数;
C
表示骨骼的坐标维数;
V
技术研发人员:侯永宏,刘超,刘鑫,岳焕景,杨敬钰,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。