一种时序动作定位方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:41473399 阅读:17 留言:0更新日期:2024-05-30 14:26
本申请涉及一种时序动作定位方法、装置、计算机设备以及存储介质。所述方法包括:将视频片段输入视频特征提取模块,通过所述视频特征提取模块提取所述视频片段的视觉特征序列;将所述视觉特征序列输入动作边界定位模块,所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界,得到所述视频片段中的候选动作起始帧和结束帧;对所述候选动作起始帧和结束帧进行两两组合,生成候选动作边界组合,并将所述候选动作边界组合输入分类网络,得到每组候选动作边界组合的动作类别及分数。本申请实施例避免了同一视频片段中相邻片段之间的干扰,提升了时序动作的定位精度。

【技术实现步骤摘要】

本申请属于计算机视觉,特别涉及一种时序动作定位方法、装置、计算机设备以及存储介质。


技术介绍

1、随着互联网上视频数量的快速增长,视频内容分析方法已经引起了学术界和工业界的广泛关注。时序动作定位(temporal action localization)是近年来兴起的一项前沿技术,其目标是在未修剪的长视频中定位动作实例信息,通过结合计算机视觉与机器学习算法,能够准确地识别及追踪视频中复杂的人体动作。目前的时序动作定位方法可以大致分为以下两种:

2、一、基于候选片段生成的两阶段时间动作定位方法;该方法包含两个阶段:1.生成候选视频片段;2.将候选视频片段分类为动作并细化它们的时间边界。该方法原理简单,对实际动作的区间也能很好的覆盖,但由于没有利用动作的先验信息,生成的窗口数量很冗余,且和时间动作的区间吻合度不高,同时由于没有考虑时序性信息,针对时序性较强的动作识别并不准确。

3、二、单阶段时序动作定位方法;该方法的核心思想是将候选视频片段生成和视频片段分类集成到一个模型中,同时对片段生成模型和分类模型进行优化,旨在不使用候选视频片段生本文档来自技高网...

【技术保护点】

1.一种时序动作定位方法,其特征在于,包括:

2.根据权利要求1所述的时序动作定位方法,其特征在于,所述通过所述视频特征提取模块提取所述视频片段的视觉特征序列,具体为:

3.根据权利要求2所述的时序动作定位方法,其特征在于,所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界,得到所述视频片段中的候选动作起始帧和结束帧,具体为:

4.根据权利要求3所述的时序动作定位方法,其特征在于,所述Transformer编码器利用多头注意力机制对视觉特征序列和查询特征进行编码,获取编码后的视觉特...

【技术特征摘要】

1.一种时序动作定位方法,其特征在于,包括:

2.根据权利要求1所述的时序动作定位方法,其特征在于,所述通过所述视频特征提取模块提取所述视频片段的视觉特征序列,具体为:

3.根据权利要求2所述的时序动作定位方法,其特征在于,所述动作边界定位模块采用基于查询向量的transformer网络在所述视觉特征序列中定位出包括动作起始点和结束点的动作边界,得到所述视频片段中的候选动作起始帧和结束帧,具体为:

4.根据权利要求3所述的时序动作定位方法,其特征在于,所述transformer编码器利用多头注意力机制对视觉特征序列和查询特征进行编码,获取编码后的视觉特征表示f以及编码后的起始帧查询特征表示qs和结束帧查询特征表示qe,具体为:

5.根据权利要求4所述的时序动作定位方法,其特征在于,所述利用所述编码后的视觉特征表示f以及起始帧查...

【专利技术属性】
技术研发人员:尚万峰张琦吴新宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1