基于差分和多尺度全卷积注意力网络的时序动作检测方法技术

技术编号：40100804 阅读：6 留言：0更新日期：2024-01-23 17:39

本发明专利技术公开了基于差分和多尺度全卷积注意力网络的时序动作检测方法，用于视频中的动作定位。为了消除复杂背景对时序动作检测的干扰，设计了级联差分注意力模块抑制背景特征的同时增强动作特征；为了更进一步增强动作片段特征，提出了多尺度全卷积注意力模块，以突显多尺度动作片段特征。本发明专利技术克服了视频动作多样性、背景复杂性以及动作边界模糊性等问题，将动作背景差分模块和全卷积注意力模块组合起来，设计了一个端到端的时序动作检测网络，在时序动作检测领域可取得有竞争力的结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习，涉及一种基于差分和多尺度全卷积注意力网络的时序动作检测方法。

技术介绍

1、时序动作检测任务旨在预测未修剪视频中的动作实例边界以及视频中每个动作实例的类别。随着移动设备和互联网的快速发展，视频数量不断激增，时序动作检测广泛应用于视频推荐、智能监控、人机交互等领域。

2、受到目标检测思想的启发，时序动作检测方法也得到了较快发展。现有时序动作检测主要包括全监督和弱监督两种方法。弱监督方法由于仅提供视频级别的类别标签，缺少动作的时间位置信息，因而性能受到一定的限制。相对弱监督方法，全监督方法由于在训练过程中有动作的时间位置标签和类别标签作为监督，所以性能更优越，本专利技术是一种全监督时序动作检测方法，但由于动作的多样性、背景的复杂性以及动作边界的模糊性等原因，准确的时序动作检测仍然是一个亟待解决的问题，故研究高效准确的时序动作检测有着重要意义。

技术实现思路

1、本专利技术的目的是提供一种基于差分和多尺度全卷积注意力网络的时序动作检测方法，采用该方法能够提高视频定位和动作识别的精度。

2、本专利技术所采用的技术方案是，基于差分和多尺度全卷积注意力网络的时序动作检测方法，具体包括如下步骤：

3、步骤1，从官网上下载时序动作检测视频数据集vs，把vs分为训练视频集trs和测试视频集tes，并制作对应真值标签；

4、步骤2，构建基于差分和多尺度全卷积注意力网络结构；

5、步骤3，设计基于差分和多尺度全卷积注意力网络的损失函数；

6、步骤4，训练网络模型model；

7、步骤5，在测试视频集tes上进行模型model测试，得到视频的动作检测结果，并对检测结果进行评价。

8、本专利技术的特点还在于：

9、步骤1的具体过程为：

10、步骤1.1，从时序动作检测官方网站上下载动作视频集vs＝{v1,…,vm,…,vm}和对应的动作真值标签集label＝{y1,...,ym,...,ym}，vm和ym表示vs中的第m个视频和其动作标签，1≤m≤m，m表示vs中视频的总个数，w,h,tm分别对应vm中图像的宽、高和时长，表示ym中第hm个动作实例标签，1≤hm≤hm,hm表示ym中的动作实例总个数，其中分别表示的起始时间，终止时间和动作类别，把vs按n:r个数比例划分为训练视频trs和测试视频tes，表示trs中的第n个视频，表示tes中的第r个视频，n+r＝m，把label按trs和tes划分为动作真值标签训练集ltrs和动作真值标签测试集ltes，表示ltrs中的第n个动作真值标签，表示ltes的第r个动作真值标签；

11、步骤1.2，制作背景真值标签glabel＝{g1,...,gm,...,gm}，gm表示vs中的第m个视频的背景标签，把glabel按trs和tes划分为背景真值标签训练集gltrs和背景真值标签测试集gltes，

12、步骤1.2中背景标签gm的制作过程为：

13、步骤1.2.1，定义背景标签gm、背景区域变量集合时间位置变量和时间位置区域变量并初始化：

14、

15、其中，0＜n＜tm；

16、步骤1.2.2，获取gm的背景区域集合由gm对应的动作标签ym得到表示gm中第hm个背景,hm表示gm中的背景总个数，和分别表示的起始时间和终止时间，则

17、步骤1.2.3，计算和的重叠度即将得到的最大重叠度作为的标签值，记为

18、步骤1.2.4，更新背景真值标签gm，

19、步骤1.2.5，判断n是否大于等于tm，如果是，则第m个视频的背景真值标签gm制作成功，否则，n+＝1，返回步骤1.2.3。

20、步骤2中，用于时序动作检测的差分和多尺度全卷积注意力网络结构包括输入模块、特征提取模块、级联差分注意力模块、多尺度全卷积注意力模块和预测模块，具体过程为：

21、步骤2.1，输入模块，从trs中提取第n个视频对进行采样得到长度为t的视频序列f作为网络结构的输入层，f∈rw×h×t，采样机制为：设中视频帧的总个数为tn，如果tn≥t,那么从中每隔帧采样一帧；反之，那么在中补(t-tn)个全是0的帧图像，其中integer(·)为取整函数；

22、步骤2.2，特征提取模块，将f作为输入送入基干网络i3d中，提取i3d输出前一层的特征作为f的深度特征x0，x0∈rt×d，t，d分别表示特征的时序长度和维度；

23、步骤2.3，级联差分注意力模块，把x0作为两路输入和送入级联差分注意力模块输出增强后的动作特征和背景特征

24、步骤2.4，多尺度全卷积注意力模块包括1个输入层、1个特征层、1个全卷积注意力层，把作为输入送入多尺度全卷积注意力模块，经过特征层后为d′为特征维度，再把送入全卷积注意力层，输出为mutia，mutia∈rt×d；

25、步骤2.5，预测模块由两路预测分支组成，一路把步骤2.3得到的经过全连接层得到背景分类分数pb，pb∈rt，另一路把步骤2.4得到的mutia经过分类头和回归头分别得到分类结果p和回归结果其中，p∈rt×class，p＝{p1,...,pt,...pt}，pt和是时刻t的分类结果和定位结果，pt∈rclass，0＜t≤t，和是时刻t定位的动作开始和结束时间，class为动作类别个数，分类头和回归头均为3组串联的1d卷积和激活组合层。

26、步骤2.3中，级联差分注意力模块包括两个差分注意力模块级联，每个差分注意力模块由输入层、特征层、差分注意力层组成，第一个差分注意力模块的输入层数据为特征层输入数据和输出数据分别为和差分注意力层的输入和输出数据分别为和第二个差分注意力模块的输入层数据为特征层输入数据和输出数据分别为和差分注意力层的输入和输出数据分别为和

27、步骤2.3中，差分注意力层的处理过程为：

28、1)把差分注意力模块中特征层的输出和作为差分注意力层的输入，其中

29、2)定义查询向量qa，值向量va、vb和键向量kb；

30、3)给qa、va、vb和kb赋值：

31、4)求qa和kb的相关度a(qa,kb)：

32、

33、5)计算差分注意力层的输出xa，xb，

34、xa＝a(qa,kb)va (2)

35、xb＝a(qa,kb)vb (3)。

36、步骤2.4中，全卷积注意力层的具体过程为：

37、1)定义查询、键和值特征序列变量分别为q、k和v，给q、k、v赋值：

38、2)设置尺度变量sw、最大尺度变量sw、多尺度全卷积注意力结果集合变量aw、滑动窗大小变量lw和最大滑动窗大小变量maxlw，并初始化为sw＝1，sw＝t/2,lw＝1，maxlw＝t/2,aw＝null；

39、3)按lw在q本文档来自技高网...

【技术保护点】

1.基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：具体包括如下步骤：

2.根据权利要求1所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤1的具体过程为：

3.根据权利要求2所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤1.2中背景标签Gm的制作过程为：

4.根据权利要求1所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤2中，用于时序动作检测的差分和多尺度全卷积注意力网络结构包括输入模块、特征提取模块、级联差分注意力模块、多尺度全卷积注意力模块和预测模块，具体过程为：

5.根据权利要求4所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤2.3中，级联差分注意力模块包括两个差分注意力模块级联，每个差分注意力模块由输入层、特征层、差分注意力层组成，第一个差分注意力模块的输入层数据为特征层输入数据和输出数据分别为和差分注意力层的输入和输出数据分别为和第二个差分注意力模块的输入层数据为特征层输入数据和输出数

6.根据权利要求5所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤2.3中，差分注意力层的处理过程为：

7.根据权利要求6所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤2.4中，全卷积注意力层的具体过程为：

8.根据权利要求7所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤3中，总损失Loss由背景分类损失LB和动作预测损失LFCA组成，LFCA由动作分类损失Lc和动作定位损失Lr组成：

9.根据权利要求1所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤4的具体过程为：

10.根据权利要求9所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤5的具体过程为：

...

【技术特征摘要】

1.基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：具体包括如下步骤：

2.根据权利要求1所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤1的具体过程为：

3.根据权利要求2所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤1.2中背景标签gm的制作过程为：

5.根据权利要求4所述的基于差分和多尺度全卷积注意力网络的时序动作检测方法，其特征在于：所述步骤2.3中，级联差分注意力模块包括两个差分注意力模块级联，每个差分注意力模块由输入层、特征层、差分注意力层组成，第一个差分注意力模块的输入层数据为特征层输入数据和输出数据分别为和差分注...

【专利技术属性】
技术研发人员：赵凡，刘雨，贾兴伟，康晓兵，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人