一种基于渐进式优化网络的开放词汇点监督时序动作定位方法技术

技术编号:45967903 阅读:11 留言:0更新日期:2025-08-01 18:35
本发明专利技术公开了一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,属于视频理解领域。首先通过语义引导早期增强对视觉特征进行初步筛选,从而抑制背景噪声干扰,提升类别相关特征的表达能力。随后,利用上下文‑语义后期增强进一步建模动作在不同时间段之间的语义关联,强化视觉表达的类别辨识度,促使模型挖掘更多不受约束的新类提议。最后,结合伪标签约束优化动作边界,实现对边界位置的精细建模,在提升检测精度的同时增强模型的泛化能力。该方法结合渐进式优化建模策略,融合视觉与语义特征构建统一的渐进优化网络,旨在减少标记依赖的同时提升动作定位性能。所述方法在智能监控、异常行为检测、视频问答等任务中具备广泛的应用前景。

【技术实现步骤摘要】

本专利技术属于视频理解领域,具体是一种基于深度学习的开放词汇点监督时序动作定位方法。该方法结合渐进式优化建模策略,融合视觉与语义特征构建统一的渐进优化网络,旨在减少标记依赖的同时提升动作定位性能。所述方法在智能监控、异常行为检测、视频问答等任务中具备广泛的应用前景。


技术介绍

1、随着互联网的快速发展,视频数据呈爆炸式增长,如何从海量视频中检索出有价值的信息成为了视频理解领域的研究热点,特别是开放词汇时序动作定位任务(ovtal),该任务旨在从已知动作样本中学习先验知识迁移到对未知动作类别的识别和定位。现有的ovtal算法通常依赖于完全注释的边界信息训练类不可知的动作定位器,并借助视觉语言模型(vlm,如clip)完成分类,如图1(a)所示。然而,这些方法在面对海量视频数据时,标注成本贵昂且标记过程极易受主观因素的影响,导致一致性差,极大地限制了它们在实际应用中的推广。

2、此外,尽管vlm模型在视觉-语义对齐方面表现出强大的泛化能力,但现有的ovtal方法在建模视觉和文本语义关联方面仍存在局限性,难以捕获跨片段的时序依赖性,导致在复杂和大规模本文档来自技高网...

【技术保护点】

1.一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:该方法的实施步骤如下:

2.根据权利要求1所述的一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:实现该方法的系统模块包括特征提取模块、语义引导早期增强模块SEEM,上下文-语义后期增强模块CLEM,以及边界细化模块BRM;特征提取模块用于特征提取,作为后续环节的输入数据;SEEM首先利用类别语义引导实现视觉特征的初步特征筛选,捕获类别相关的视觉信息并抑制无关噪声;CLEM通过层级化对齐时序片段与类别语义,增强视觉特征的类别表达能力;BRM强化语义一致性、生成高质量的边界伪标签,提升动作...

【技术特征摘要】

1.一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:该方法的实施步骤如下:

2.根据权利要求1所述的一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:实现该方法的系统模块包括特征提取模块、语义引导早期增强模块seem,上下文-语义后期增强模块clem,以及边界细化模块brm;特征提取模块用于特征提取,作为后续环节的输入数据;seem首先利用类别语义引导实现视觉特征的初步特征筛选,捕获类别相关的视觉信息并抑制无关噪声;clem通过层级化对齐时序片段与类别语义,增强视觉特征的类别表达能力;brm强化语义一致性、生成高质量的边界伪标签,提升动作定位的完整性与准确性。

3.根据权利要求2所述的一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:所述特征提取模块是在一个包含日常活动和体育事件的数据集上进行;给定具有t个片段的未剪辑视频v,其为每个动作实例标注单个时间戳,得到点集其中,n为视频中实例的总数,tn,yn分别表示标注的时间戳和动作类别;动作标签定义为yn∈{1,2,..,c},c表示动作类别的总数,包含基础类别和新类别,即c=cbase∪cnovel,其中cbase存在于训练阶段,cnovel仅在推理阶段出现;

4.根据权利要求2所述的一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:语义引导早期增强模块seem的实施过程如下:

5.根据权利要求2所述的一种基于渐进式优化网络的开放词汇点监督时序动作定位方法,其特征在于:所述上下文-语义后期增强模块clem的实施...

【专利技术属性】
技术研发人员:孔德慧王静李敬华尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1