基于时序扰动与学习稳定化的半监督细粒度动作识别方法技术

技术编号:44734176 阅读:48 留言:0更新日期:2025-03-21 17:59
本发明专利技术提出了一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,针对半监督细粒度动作识别这一具有高度挑战性任务,该方法以FixMatch半监督学习体系为基础,提出了半监督学习细粒度动作识别算法框架SeFAR。该方法提出双级时序元素采样方法,结合了细粒度时序元素与时序上下文,能够有效捕捉多粒度的时序信息,以增强区分视频中细微动作的能力;并且考虑时序动态的重要性并设计新的“强增强”策略,在获得的细粒度时序元素中引入适度的时序扰动,同时保持上下文元素的时序顺序,从而构建更适合细粒度动作识别任务的弱‑强增强对比数据对;此外,该方法还设计了自适应学习调节策略,通过计算自适应系数来调整训练中反传的损失,以稳定训练过程。

【技术实现步骤摘要】

本专利技术涉及动作识别与深度学习,具体为一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法


技术介绍

1、随着5g互联网的普及以及人工智能技术的迅速发展,产生了海量的视频数据,而视频理解因其包含生动的视觉信息和丰富的时序动态而越来越受到关注,吸引越来越多研究人员投身于视频理解的研究工作。动作识别作为视频理解中的核心问题之一,在监控系统、人机交互和视频检索等领域展现出广泛的应用前景。近年来,得益于深度学习技术的发展和大规模视频数据集的构建,有监督的动作识别研究取得了显著进展。多个强大的多模态大型语言模型(mllms)被提出,例如gpt-4v(openai 2024);videochat(li etal.2024b);video-llava(lin et al.2023);internlm(zhang et al.2024),其目标是获得更通用和全面的能力。这些多模态大模型在经典的动作识别上能够取得非常完美的识别结果,但经典的动作识别仅要求模型提供相对粗粒度的类别,如“体操”,而对于专注更具体的任务场景,旨在提供更详细、具体和语义准确描述的细粒度动作识别本文档来自技高网...

【技术保护点】

1.一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:包括以下步骤:

2.根据权利要求1所述一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:所述双级时序元素采样为:

3.根据权利要求1或2所述一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:步骤a中,所述少量有标签的视频和大量无标签的视频指有标签的视频占比不超过10%,不少于1%。

4.根据权利要求2所述一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:所述强增强为适度时序扰动。

5.根据权利要求4所述一种基于时序扰...

【技术特征摘要】

1.一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:包括以下步骤:

2.根据权利要求1所述一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:所述双级时序元素采样为:

3.根据权利要求1或2所述一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:步骤a中,所述少量有标签的视频和大量无标签的视频指有标签的视频占比不超过10%,不少于1%。

4.根据权利要求2所述一种基于时序扰动与学习稳定化的半监督细粒度动作识别方法,其特征在于:所述强增强为适度时序扰动。

5.根据权利要求4所述一种基于时序扰动与学习稳定化的半监督细...

【专利技术属性】
技术研发人员:邵典许正正时铭飞陈浩东黄永乐吉博文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1