一种基于帧级和特征级增强的半监督动作识别训练方法技术

技术编号:38808980 阅读:10 留言:0更新日期:2023-09-15 19:47
本发明专利技术公开了一种基于帧级和特征级增强的半监督动作识别训练方法,包括渐进式增强和多头伪标签两部分,使模型在复杂多变的视频场景下仍能学习到鲁棒的动作表征。渐进式增强模块先在帧级对视频片段进行弱/强增强,继而在特征级进行特征扰动操作,实现了在更广泛的扰动空间中对无标注视频进行多样性变换,弥补了单一帧级增强变换效果受限的缺陷。多头伪标签模块使得帧级强增强、帧级

【技术实现步骤摘要】
一种基于帧级和特征级增强的半监督动作识别训练方法


[0001]本专利技术涉及一种一种模型训练方法,具体涉及一种半监督动作识别训练方法。

技术介绍

[0002]动作识别旨在识别视频片段中包含的人类行为,由于其在人机交互、辅助驾驶、社会公共安全等领域的广泛应用,已成为计算机视觉领域的研究热点。得益于深度学习的蓬勃发展,动作识别在理论和实践上都经历了巨大革命。基于深度学习的方法以端到端的方式,利用可训练的特征提取模型从视频中自动学习行为表征,并在大规模数据集上取得了显著的性能提升。然而,这类方法大都采用全监督训练策略,严重依赖于复杂和昂贵的人工标注。在数据规模快速增长的情况下,获取并标注数据集需要大量的资源、时间和努力,限制了动作识别方法的进一步应用。为了克服对大规模标注数据集的需求,一些研究人员转向设计半监督动作识别方法,借助大量无标注视频数据,使得模型在有限的标注的训练环境下仍具有良好的性能表现。
[0003]如何有效利用大量无标注视频数据使模型学习到鲁棒动作特征是半监督动作识别的关键挑战。过往研究尝试采用半监督图像分类中一致性正则化策略,探索针对视频的数据增强方法,对视频数据进行多样化变换以学习到不变的动作特征表示。然而,这类工作仅在帧级上进行颜色变化、随机裁剪或遮挡,忽视了视频数据的时空冗余性和复杂性。尤其在提取视频特征过程中,这种帧级增强可能会使扰动被邻近帧的上下文信息所抵消,弱化了对无标注数据的变换效果,阻碍模型学习到鲁棒的动作表征。

技术实现思路

[0004]专利技术目的:为解决半监督动作识别中利用帧级增强对无标注数据进行表征一致性学习的局限性,提出一种基于帧级和特征级增强的半监督动作识别训练方法。
[0005]技术方案:一种基于帧级和特征级增强的半监督动作识别训练方法,包括:
[0006]步骤1:对无标注视频进行随机采样,获得原始RGB模态和梯度模态视频片段作为输入数据;对两种视频片段分别进行帧级弱增强和帧级强增强,将增强后的片段输入至双模态特征编码器,获得对应的帧级弱增强特征和帧级强增强特征;
[0007]步骤2:将帧级增强后的特征进行时序平均池化操作,再利用特征扰动器对平均后的特征进行扰动,得到对应的帧级

特征级弱增强特征和帧级

特征级强增强特征;
[0008]步骤3:将步骤1和步骤2得到的特征分别经过分类头得到相应的类别分布预测,然后将RGB模态和梯度模态分别对应的帧级弱增强类别分布预测进行特征融合后计算伪标签,并获得伪标签置信度大于阈值的伪标签集合,再计算所述伪标签集合内无标注视频的无监督约束损失;
[0009]步骤4:将有标注视频的类别分布预测与真实标签计算有监督分类损失,并与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络。
[0010]进一步的,所述步骤1中,所述帧级弱增强尺寸调整、随机裁剪和图像翻转,所述帧
级强增强包括随机图像块切除和RandAugment组合增强。
[0011]进一步的,所述步骤1中,所述特征扰动器包括空间特征丢弃、噪声干扰和特征翻转。
[0012]进一步的,所述步骤3中,计算所述伪标签集合内无标注视频的无监督约束损失包括:
[0013]根据帧级强增强特征对应的类别分布预测p
s
计算帧级强增强流的损失
[0014][0015]其中,p
s
为帧级强增强特征对应的类别分布预测,B
u
为一个训练批次中无标注视频数量,为交叉熵损失函数,为伪标签,为RGB模态的帧级强增强特征对应的类别分布预测,为梯度模态的帧级强增强特征对应的类别分布预测;
[0016]根据帧级

特征级弱增强特征对应的类别分布预测p
w_p
计算帧级

特征级弱增强流的损失根据帧级

特征级强增强特征对应的类别分布预测p
s_p
计算帧级

特征级强增强流的损失即:
[0017][0018][0019]其中,为RGB模态的帧级

特征级弱增强特征对应的类别分布预测,为梯度模态的帧级

特征级弱增强特征对应的类别分布预测;为RGB模态的帧级

特征级强增强特征对应的类别分布预测,为梯度模态的帧级

特征级强增强特征对应的类别分布预测。
[0020]进一步的,所述步骤4中,计算得到的有监督分类损失为与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络,即:
[0021][0022]其中,α,β,γ是平衡三个损失的权重参数。
[0023]有益效果:本专利技术提出了一种基于帧级和特征级增强的半监督动作识别框架,包括渐进式增强和多头伪标签两部分,使模型在复杂多变的视频场景下仍能学习到鲁棒的动作表征。渐进式增强模块实现了在更广泛的扰动空间中对无标注视频进行多样性变换,弥补了单一帧级增强变换效果受限的缺陷;多头伪标签模块使得多种增强特征与普通弱增强生成的伪标签对齐,充分发挥了表征一致性约束以学习到更鲁棒的动作表征。
附图说明
[0024]图1为本专利技术方法的流程图;
[0025]图2为本专利技术方法对应的框架图;
[0026]图3为本专利技术使用的3D主干网络的参数配置,使用3
×8×
2242的视频片段作为输入样例;
[0027]图4为本专利技术与现有方法的结果比较。
具体实施方式
[0028]下面结合附图对本专利技术做更进一步的解释。
[0029]如图1、图2所示,一种基于帧级和特征级增强的半监督动作识别训练方法,包括帧级增强、特征级增强、多头伪标签和损失计算四个过程。
[0030]帧级增强包括以下步骤:
[0031]步骤1:对无标注视频进行随机采样,获得原始RGB模态的视频片段x
V
∈R
T
×
H
×
W
×3和梯度模态的视频片段x
G
∈R
T
×
H
×
W
×3作为输入数据,其中每一视频片段分别包含T张分辨率为H
×
W的帧图像,V表示RGB模态,G表示梯度模态。
[0032]步骤2:对两种视频片段分别进行帧级强/弱增强,将增强后的片段输入至双模态特征编码器,获得对应的帧级弱增强特征Z
w
∈R
T
×
h
×
w
×
c
和帧级强增强特征Z
s
∈R
T
×
h
×
w
×
c
,即:
[0033][0034][0035]其中,x为输入的视频片段(此处省略上标);为帧级弱增强,包括尺寸调整、随机裁剪和图像翻转;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,包括:步骤1:对无标注视频进行随机采样,获得原始RGB模态和梯度模态视频片段作为输入数据;对两种视频片段分别进行帧级弱增强和帧级强增强,将增强后的片段输入至双模态特征编码器,获得对应的帧级弱增强特征和帧级强增强特征;步骤2:将帧级增强后的特征进行时序平均池化操作,再利用特征扰动器对平均后的特征进行扰动,得到对应的帧级

特征级弱增强特征和帧级

特征级强增强特征;步骤3:将步骤1和步骤2得到的特征分别经过分类头得到相应的类别分布预测,然后将RGB模态和梯度模态分别对应的帧级弱增强类别分布预测进行特征融合后计算伪标签,并获得伪标签置信度大于阈值的伪标签集合,再计算所述伪标签集合内无标注视频的无监督约束损失;步骤4:将有标注视频的类别分布预测与真实标签计算有监督分类损失,并与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络。2.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤1中,所述帧级弱增强尺寸调整、随机裁剪和图像翻转,所述帧级强增强包括随机图像块切除和RandAugment组合增强。3.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤1中,所述特征扰动器包括空间特征丢弃、噪声干扰和特征翻转。4.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤3中,计算所述伪标签集合内无标注...

【专利技术属性】
技术研发人员:舒祥波涂哲维
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1