基于Transformer的视频多注意力机制的时序动作检测方法技术

技术编号：39416697 阅读：11 留言：0更新日期：2023-11-19 16:07

本发明专利技术公开了一种基于Transformer的视频多注意力机制的时序动作检测方法，包括如下步骤：S1、获取待检测的视频图像，将视频帧经过预训练的视频模型提取初始视频特征；S2、将所述视频特征输入到一个浅层卷积网络进行投影得到视频片段特征嵌入；S3、将所有特征嵌入输入到局部自注意力的Transformer模块输出其局部样式特征；S4、将所述的局部样式特征输入到全局自注意力的Transformer模块对长期依赖进行建模；S5、最终每个Transformer层的输出构建为特征金字塔结构；S6、将特征金字塔的每一层输入到检测头中，检测头中包括回归头和分类头，分别输出最终动作的时序边界和类别。该方法能够提升动作检测的准确率，同时效率比传统的Transformer模型更高。Transformer模型更高。Transformer模型更高。

全部详细技术资料下载

【技术实现步骤摘要】
基于Transformer的视频多注意力机制的时序动作检测方法

[0001]本专利技术涉及深度学习视频理解
，具体指一种基于Transformer的视频多注意力机制的时序动作检测方法。

技术介绍

[0002]视频市场的快速增长受益于移动互联网和智能数字设备等方面的技术创新。如今，智能移动设备可存储数千个视频，移动应用程序允许用户通过移动互联网方便地访问数百视频网站。因此，视频理解在许多领域都变得愈发重要。而对于时序动作检测则可以用于视频分析，或在海量的视频数据中进行视频检索等等方面。而随着视频多样性的增加，传统的手工特征方法的效率和效果都已达不到相应的要求，于是深度学习的方法开始逐步取代传统的方法。
[0003]在当前的人工智能深度学习方法中，时序动作检测通常使用两种方式来实现。第一种就是基于卷积神经网络(CNNs)的方法。卷积神经网络(CNNs)多年来一直在视觉领域发挥着重要作用。在视频理解任务中也是如此。3D卷积网络可以像视频一样自然地处理3D数据，因此许多3D卷积网络在这项任务中取得了巨大突破。然而，这种3D网络往往具有大量的参数，而卷积网络有限的感受野使这些网络无法捕捉长期的时空依赖关系。因此，在视频内容日益多样化的今天，卷积网络模型相对就越来越受限制。第二类是基于Transformer的方法。最初用于自然语言处理领域的Transformer模型已逐渐应用于视觉领域并取得了显著成果。然而，这种方法有一个缺点就是当模型的输入序列过长时，这些模型所需要的代价就非常昂贵，主要是因为Transforme...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的视频多注意力机制的时序动作检测方法，其特征在于，包括如下步骤：S1、获取待检测的视频图像，将视频图像的视频帧经过预训练的视频动作识别模型提取初始视频特征；S2、将提取的初始视频特征输入到一个浅层卷积网络进行投影得到视频片段特征嵌入；S3、将所有的视频片段特征嵌入通过LATM输出其局部样式特征；S4、将局部样式特征输入GATM，通过GATM的全局自注意力机制获得长期依赖信息；S5、将LATM输出其局部样式特征以及GATM获得长期依赖信息构建为特征金字塔结构；S6、将特征金字塔的每一层输入到检测头中输出最终动作的时序边界和类别。2.根据权利要求1所述的基于Transformer的视频多注意力机制的时序动作检测方法，其特征在于，所述步骤S2中，浅层卷积网络包括两层一维卷积层，卷积核大小为3，步长为1，每个卷积层后加一个ReLU激活函数。3.根据权利要求1所述的基于Transformer的视频多注意力机制的时序动作检测方法，其特征在于，所述LATM中Transformer网络的层数为L，其中L＝2；所述GATM中Transformer网络的层数为G，其中G＝4。4.根据权利要求3所述的基于Transformer的视频多注意力机制的时序动作检测方法，其特征在于，在每个所述Transformer网络的后面加上一个最大池化层达到下采样的效果，下采样率为2。5.根据权利要求4所述的基于Transformer的视频多注意力机制的时序动...

【专利技术属性】
技术研发人员：张万军，周福兴，张海平，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人