基于跨模态信息的开放场景时序动作检测方法、设备及介质技术

技术编号：46083721 阅读：10 留言：0更新日期：2025-08-12 18:06

基于跨模态信息的开放场景时序动作检测方法、设备及介质，视频帧序列通过时空特征编码器和跨模态对齐视觉特征编码器，经特征融合得到具备时空细节和跨模态对齐信息的特征表示，再通过特征金字塔网络学习局部细节序列信息，最后通过区间回归头网络完成动作区间生成，同时在跨模态特征分类头中进行全局时序建模，基于视觉语言特征匹配和前景分数增强机制完成动作类别判定。本发明专利技术提出了一种引入跨模态信息的一阶段开放场景时序动作检测方法，简化了开放场景的时序动作检测方法流程，实现对新动作定位和分类能力的共同优化，提升模型在新类别上的检测表现，能够更好地适应现实中开放、动态且复杂多变的应用场景，具有实用性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机人工智能，涉及计算机视觉中的开放场景视频理解，为一种基于跨模态信息的一阶段开放场景时序动作检测方法、设备及介质。

技术介绍

1、随着视频数据的爆炸式增长，时序动作检测技术的应用价值凸显而出，在智能安防、体育赛事分析、视频内容审核等多种应用场景发挥重要作用。然而，当前主流研究多基于封闭场景进行方法设计，场景中的动作类别固定，拓展到新动作场景时，需要收集大量新类别数据进行标注，并重新训练模型，难以适应现实中复杂多变的开放场景。针对这一问题，研究者基于视觉语言预训练模型强大的零样本跨模态特征匹配能力，设计了开放场景下的时序动作检测方法，实现对训练过程中未见动作类的零样本识别和定位。由于视觉语言模型的预训练过程是在全局图像-文本对上进行对比学习训练，因此视觉编码器的时空特征编码能力较弱，编码出的跨模态对齐特征包含的时序细节信息不足。基于这一原因，现有的开放场景时序动作检测方法大都通过离线训练的动作提议生成器得到类不可知的动作区间后，再基于视觉语言模型的视觉和文本编码器将动作区间与动作名称进行匹配。这种两阶段的范式，训练和预测...

【技术保护点】

1.基于跨模态信息的开放场景时序动作检测方法，其特征是构建时序动作检测网络，引入跨模态信息，同时完成对训练过程未见的新动作类别的时序区间生成和动作分类，包括以下步骤：

2.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法，其特征是互补特征提取和融合模块包括时空特征提取、跨模态对齐特征提取、特征对齐和融合三步，具体如下：

3.根据权利要求2所述的基于跨模态信息的开放场景时序动作检测方法，其特征是1.1.1)中，根据动作区间长度将输入的视频分为短视频和长视频，如为短视频输入，采用I3D视频特征编码器；如为长视频输入，采用经过基于时间敏感预训练方法训练的R(...

【技术特征摘要】

3.根据权利要求2所述的基于跨模态信息的开放场景时序动作检测方法，其特征是1.1.1)中，根据动作区间长度将输入的视频分为短视频和长视频，如为短视频输入，采用i3d视频特征编码器；如为长视频输入，采用经过基于时间敏感预训练方法训练的r(2+1)d-34视频编码器。

4.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法，其特征是回归头采用轻量级的卷积神经网络，由3个1d卷积层组成。

5.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法，其特征是基于跨模态特...

【专利技术属性】
技术研发人员：王利民，葛书虬，武港山，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人