【技术实现步骤摘要】
本专利技术属于计算机人工智能,涉及计算机视觉中的开放场景视频理解,为一种基于跨模态信息的一阶段开放场景时序动作检测方法、设备及介质。
技术介绍
1、随着视频数据的爆炸式增长,时序动作检测技术的应用价值凸显而出,在智能安防、体育赛事分析、视频内容审核等多种应用场景发挥重要作用。然而,当前主流研究多基于封闭场景进行方法设计,场景中的动作类别固定,拓展到新动作场景时,需要收集大量新类别数据进行标注,并重新训练模型,难以适应现实中复杂多变的开放场景。针对这一问题,研究者基于视觉语言预训练模型强大的零样本跨模态特征匹配能力,设计了开放场景下的时序动作检测方法,实现对训练过程中未见动作类的零样本识别和定位。由于视觉语言模型的预训练过程是在全局图像-文本对上进行对比学习训练,因此视觉编码器的时空特征编码能力较弱,编码出的跨模态对齐特征包含的时序细节信息不足。基于这一原因,现有的开放场景时序动作检测方法大都通过离线训练的动作提议生成器得到类不可知的动作区间后,再基于视觉语言模型的视觉和文本编码器将动作区间与动作名称进行匹配。这种两阶段的范式,训练和预测
...【技术保护点】
1.基于跨模态信息的开放场景时序动作检测方法,其特征是构建时序动作检测网络,引入跨模态信息,同时完成对训练过程未见的新动作类别的时序区间生成和动作分类,包括以下步骤:
2.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法,其特征是互补特征提取和融合模块包括时空特征提取、跨模态对齐特征提取、特征对齐和融合三步,具体如下:
3.根据权利要求2所述的基于跨模态信息的开放场景时序动作检测方法,其特征是1.1.1)中,根据动作区间长度将输入的视频分为短视频和长视频,如为短视频输入,采用I3D视频特征编码器;如为长视频输入,采用经过基于时间敏感
...【技术特征摘要】
1.基于跨模态信息的开放场景时序动作检测方法,其特征是构建时序动作检测网络,引入跨模态信息,同时完成对训练过程未见的新动作类别的时序区间生成和动作分类,包括以下步骤:
2.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法,其特征是互补特征提取和融合模块包括时空特征提取、跨模态对齐特征提取、特征对齐和融合三步,具体如下:
3.根据权利要求2所述的基于跨模态信息的开放场景时序动作检测方法,其特征是1.1.1)中,根据动作区间长度将输入的视频分为短视频和长视频,如为短视频输入,采用i3d视频特征编码器;如为长视频输入,采用经过基于时间敏感预训练方法训练的r(2+1)d-34视频编码器。
4.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法,其特征是回归头采用轻量级的卷积神经网络,由3个1d卷积层组成。
5.根据权利要求1所述的基于跨模态信息的开放场景时序动作检测方法,其特征是基于跨模态特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。