一种基于帧级和特征级增强的半监督动作识别训练方法技术

技术编号：38808980 阅读：10 留言：0更新日期：2023-09-15 19:47

本发明专利技术公开了一种基于帧级和特征级增强的半监督动作识别训练方法，包括渐进式增强和多头伪标签两部分，使模型在复杂多变的视频场景下仍能学习到鲁棒的动作表征。渐进式增强模块先在帧级对视频片段进行弱/强增强，继而在特征级进行特征扰动操作，实现了在更广泛的扰动空间中对无标注视频进行多样性变换，弥补了单一帧级增强变换效果受限的缺陷。多头伪标签模块使得帧级强增强、帧级

全部详细技术资料下载

【技术实现步骤摘要】
一种基于帧级和特征级增强的半监督动作识别训练方法

[0001]本专利技术涉及一种一种模型训练方法，具体涉及一种半监督动作识别训练方法。

技术介绍

[0002]动作识别旨在识别视频片段中包含的人类行为，由于其在人机交互、辅助驾驶、社会公共安全等领域的广泛应用，已成为计算机视觉领域的研究热点。得益于深度学习的蓬勃发展，动作识别在理论和实践上都经历了巨大革命。基于深度学习的方法以端到端的方式，利用可训练的特征提取模型从视频中自动学习行为表征，并在大规模数据集上取得了显著的性能提升。然而，这类方法大都采用全监督训练策略，严重依赖于复杂和昂贵的人工标注。在数据规模快速增长的情况下，获取并标注数据集需要大量的资源、时间和努力，限制了动作识别方法的进一步应用。为了克服对大规模标注数据集的需求，一些研究人员转向设计半监督动作识别方法，借助大量无标注视频数据，使得模型在有限的标注的训练环境下仍具有良好的性能表现。
[0003]如何有效利用大量无标注视频数据使模型学习到鲁棒动作特征是半监督动作识别的关键挑战。过往研究尝试采用半监督图像分类中一致性正则化策略，探索针对视频的数据增强方法，对视频数据进行多样化变换以学习到不变的动作特征表示。然而，这类工作仅在帧级上进行颜色变化、随机裁剪或遮挡，忽视了视频数据的时空冗余性和复杂性。尤其在提取视频特征过程中，这种帧级增强可能会使扰动被邻近帧的上下文信息所抵消，弱化了对无标注数据的变换效果，阻碍模型学习到鲁棒的动作表征。

技术实现思路

[0004]专利技术目的：为解决半监督...

【技术保护点】

【技术特征摘要】
1.一种基于帧级和特征级增强的半监督动作识别训练方法，其特征在于，包括：步骤1：对无标注视频进行随机采样，获得原始RGB模态和梯度模态视频片段作为输入数据；对两种视频片段分别进行帧级弱增强和帧级强增强，将增强后的片段输入至双模态特征编码器，获得对应的帧级弱增强特征和帧级强增强特征；步骤2：将帧级增强后的特征进行时序平均池化操作，再利用特征扰动器对平均后的特征进行扰动，得到对应的帧级
‑
特征级弱增强特征和帧级
‑
特征级强增强特征；步骤3：将步骤1和步骤2得到的特征分别经过分类头得到相应的类别分布预测，然后将RGB模态和梯度模态分别对应的帧级弱增强类别分布预测进行特征融合后计算伪标签，并获得伪标签置信度大于阈值的伪标签集合，再计算所述伪标签集合内无标注视频的无监督约束损失；步骤4：将有标注视频的类别分布预测与真实标签计算有监督分类损失，并与步骤3得到的无监督约束损失按权重进行相加，得到最终模型损失以优化网络。2.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法，其特征在于，所述步骤1中，所述帧级弱增强尺寸调整、随机裁剪和图像翻转，所述帧级强增强包括随机图像块切除和RandAugment组合增强。3.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法，其特征在于，所述步骤1中，所述特征扰动器包括空间特征丢弃、噪声干扰和特征翻转。4.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法，其特征在于，所述步骤3中，计算所述伪标签集合内无标注...

【专利技术属性】
技术研发人员：舒祥波，涂哲维，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人