基于潜在动作区间特征整合的时序动作检测方法及装置制造方法及图纸

技术编号：41404592 阅读：4 留言：0更新日期：2024-05-20 19:30

本发明专利技术涉及计算机技术领域，尤其涉及一种基于潜在动作区间特征整合的时序动作检测方法及装置，包括以下步骤：对原始视频进行特征编码提取；构建基于全局注意力的片段级潜在动作区间特征提取网络模型；构建片段级潜在动作区间特征融合和时序信息增强网络模型；构建基于局部多头自注意力和多层感知机的多尺寸特征金字塔模块；构建基于轻量级卷积网络的动作分类分支模块和边界回归分支模块。通过在动作检测中引入全局特征考虑，模型能够更好地理解动作前摇和后续特征，解决了时序信息处理和边界不明确的问题，从而提高检测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种基于潜在动作区间特征整合的时序动作检测方法及装置。

技术介绍

1、近年来，随着数字媒体的迅猛发展，视频内容在人们日常生活中扮演着愈发重要的角色。在这种情况下，时序动作检测作为视频内容理解的关键领域之一，受到了学术界和产业界的广泛关注。时序动作检测的目标是从复杂的时间序列数据中识别和捕捉人类动作或事件的发生，因此被认为是计算机视觉领域中具有挑战性的任务之一。在早期的研究中，通常采用传统的特征提取方法结合机器学习算法。这些传统方法常常利用手工设计的特征来表示视频帧，然后采用传统的机器学习算法进行分类。然而，这些传统方法通常对特征选择依赖较强，难以捕捉复杂的语义信息，并且在处理长序列时存在计算复杂度较高的问题。

2、近几年随着深度学习技术的发展，深度学习方法在行为识别任务中得到广泛应用。早期的工作主要基于单纯的滑动窗口，时序动作分组和单元回归来定位视频动作序列中的时序动作信息，然而这些方法不仅计算量大、容易造成冗余，而且对于较长的视频序列，可能会损失部分时序信息，限制了性能的提升。除此之外，基于简单的单流网络，单流网络是指直接将视频帧输入到深度神经网络中进行特征提取和分类，还容易出现过拟合问题。为了综合利用空间信息，一些研究工作开始使用整个视频范围的决策辅助，使模型能够更好地理解动作前摇和后续特征，从而提高检测准确性。并且使用双流网络结构，通过特征融合来凸显视频动作边界的关键动作特征。因此，如何更准确地捕捉动作的前摇和后序特征是本领域研究的重点，通过在动作检测中引入全局特征考虑，模型能够更

技术实现思路

1、本专利技术针对现有技术的不足，研制一种基于潜在动作区间特征整合的时序动作检测方法及装置，引入了全局注意力引导的特征整合层实现对视频中 i3d 特征的权重区间寻找，并与原始特征进行融合，以改进模型对动作的决策，随后，通过全序列注意力机制寻找特征融合后的权重区间，最终将特征送入多尺寸transformer编码器和轻量化卷积解码器，以输出准确检测到的动作。相较于现有技术优化了模型结构，解决了时序信息处理和边界不明确的问题。

2、本专利技术解决技术问题的技术方案为：一方面，本专利技术提供了一种基于潜在动作区间特征整合的时序动作检测方法，其包括如下步骤：

3、1）对原始视频进行特征编码提取获得整个视频的时空特征序列；

4、2）构建基于全局注意力的潜在动作区间特征提取网络模型；

5、2-1）将步骤1）中的时空特征序列输入全局注意力引导的片段级动作区间特征提取模块；

6、2-2）基于全局注意力的潜在动作区间特征提取模块利用片段全局注意力层挖掘时空特征序列中的隐藏动作状态获取每个时刻的得分，以获得每个帧在全局上的注意力权重；

7、2-3）基于全局注意力的潜在动作区间特征提取模块利用全局注意力权重，将给定片段内的特定帧进行权重分配，突出潜在的动作发生时刻，生成潜在动作区间特征作为基于全局注意力的潜在动作区间特征提取模块的输出；

8、3）构建潜在动作区间特征融合和时序信息增强网络模型；

9、3-1）将基于全局注意力的潜在动作区间特征提取模块产生的特征和来自预训练的i3d网络对整个视频提取的时空特征序列进行拼接融合；

10、3-2）将融合后的特征序列利用全序列注意力机制，捕捉整个特征序列的时序信息，强调动作的前序和后序特征，获得时序信息增强后的特征序列并作为潜在动作区间特征融合和时序信息增强模块的输出；

11、4）构建基于transformer的视频编码模块，以处理不同尺寸的特征表示，促进对动作的更准确编码和建模；

12、5）构建基于轻量级卷积网络的动作分类和边界回归模块，将高层次的语义特征还原为原始视频帧的信息，获得最终的分类结果和定位偏移。

13、步骤 2-2）构建基于全局注意力的潜在动作区间特征提取网络模型的具体过程是：

14、将经过i3d网络模型作为特征提取器预处理好的视频特征序列输入长短期记忆网络lstm中，其中表示特征时间维度，表示特征通道维度，表示某一帧特征的高度，表示某一帧特征的宽度，得到s时刻的隐藏动作状态以及最终时刻的隐藏动作状态，使用注意力打分函数，通过多层感知机mlp来计算查询向量和每一帧特征向量之间的匹配分数，获得每个时刻的得分，具体过程本方法描述为：

15、，

16、其中，为得分计算，为查询向量，为可学习参数，为最终时刻的隐藏动作状态，为所有时刻的隐藏动作状态，通过softmax函数将所有时刻的得分进行归一化，以获得每个帧在全局上的注意力权重，即每个帧对于整个序列的重要程度，具体过程可用公式表示为：

17、，

18、其中，为全局注意力权重,为最终时刻的得分，为第k个时刻的得分， k表示总时刻数。

19、步骤 2-3）构建基于全局注意力的潜在动作区间特征提取网络模型的具体过程如下：

20、利用得到的注意力权重与隐藏动作状态乘数计算，以得到在各时刻添加了全局注意力global attention之后的潜在动作区间特征，具体过程可用公式表示为：

21、，

22、其中，为潜在动作区间特征序列，是特征维度， l 是全局注意力输出维度，其经过注意力计算后的输出表示为：

23、，

24、其中，、和分别是三个不同的权重矩阵，表示矩阵乘法， t表示转置，是缩放因子，表示softmax函数。

25、步骤3-1）构建潜在动作区间特征融合和时序信息增强网络模型的具体过程是：

26、将潜在动作区间特征送入特征融合模块，准备与原始视频特征f进行特征融合，在进行特征融合前，需要对潜在动作区间特征进行特征重塑操作，以确保两个特征序列能够正确地贴合到一起；使用线性变换对特征进行重塑，具体过程本方法描述为：

27、，

28、其中，表示重塑后的语义特征，是经注意力加权之后的潜在动作区间特征序列，是权重矩阵，是偏置向量，利用融合权重将原始 i3d 特征和线性变换后的潜在动作区间特征进行加权和，具体过程本方法描述为：

29、，

30、其中是融合权重，为潜在动作区间融合后的特征，为第i个视频片段的原始i3d特征序列， d是特征维度，z表示帧数。

31、步骤3-2）构建潜在动作区间特征融合和时序信息增强网络模型的具体过程是：

32、针对潜在动作区间融合后的本文档来自技高网...

【技术保护点】

1.一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，步骤 2-2）构建基于全局注意力的潜在动作区间特征提取网络模型的具体过程是：

3.根据权利要求2所述一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，步骤 2-3）构建基于全局注意力的潜在动作区间特征提取网络模型的具体过程如下：

4.据权利要求3所述一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，步骤3-1）构建潜在动作区间特征融合和时序信息增强网络模型的具体过程是：

5.根据权利要求4所述一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，步骤3-2）构建潜在动作区间特征融合和时序信息增强网络模型的具体过程是：

6.根据权利要求5所述一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，步骤4构建基于Transformer的视频编码模块的具体过程是：

7.根据权利要求6所述一种基于潜在动作区间特征整合的时序动作检

8.一种基于潜在动作区间特征整合的时序动作检测方法的装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，包括如下步骤：

4.据权利要求3所述一种基于潜在动作区间特征整合的时序动作检测方法，其特征在于，步骤3-1）构建潜在动作区间特征融合和时序信息增强网络模型的具体过程...

【专利技术属性】
技术研发人员：高赞，宋虎远，马春杰，赵一博，袁立明，李传森，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人