基于多尺度特征融合注意力的实时动作检测方法技术

技术编号：35104437 阅读：43 留言：0更新日期：2022-10-01 17:13

本发明专利技术涉及一种基于多尺度特征融合注意力的实时动作检测方法，首先对数据集视频片段进行帧集划分，通过随机排序操作对其进行数据增强。其次，对输入视频片段进行关键帧的提取，获得的关键帧进行光流信息的提取。将获取到视频片段、关键帧以及关键帧光流分别输入ResNext101以及Darknet网络进行特征提取，并通过多尺度特征融合注意力模块对特征进行增强，拼接时空特征通过通道注意力进一步融合时空特征，最后通过分类以及回归得到类别边界框以及置信度，经过NMS（非极大值抑制），得出预测结果。结果。结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于多尺度特征融合注意力的实时动作检测方法

[0001]本专利技术涉及模式识别与计算机视觉领域，特别是一种基于多尺度特征融合注意力的实时动作检测方法。

技术介绍

[0002]随着科技的发展，动作检测是近些年来的热点研究问题，在无人驾驶、安全监控、交通运输、人机交互系统等领域，实时动作检测的应用越来越广泛。现有的大多数最先进的动作检测方法采用双流架构，然而，光流信息存在计算耗时、耗费大量存储空间等问题，且随视频动作幅度变化，整个视频的光流信息难免存在噪声片段，对最后的运动特征表示也将产生影响。其次，大多数方法通过2D/3D网络提取片段级或帧级特征，只从单一尺度(即短期或长期)考虑时间依赖性，忽略了多尺度时间依赖性。并直接将深度网络提取的时序特征与空间特征进行拼接，忽略了时序特征与空间特征间的数据来源不同，其特征中元素关联关系也不同的情况。

技术实现思路

[0003]有鉴于此，本专利技术的目的是提出一种基于多尺度特征融合注意力的实时动作检测方法，能够有效地对学生行为进行识别。本其首先对数据集视频片段进行帧集划分，通过随机排序操作对其进行数据增强。其次，对输入视频片段进行关键帧的提取，获得的关键帧进行光流信息的提取。将获取到视频片段、关键帧以及关键帧光流分别输入ResNext101以及Darknet网络进行特征提取，并通过多尺度特征融合注意力模块对特征进行增强，拼接时空特征通过通道注意力进一步融合时空特征，最后通过分类以及回归得到类别边界框以及置信度，经过NMS(非极大值抑制)，得出预测结果。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合注意力的实时动作检测方法，其特征在于：包括以下步骤：步骤S1：对数据集视频片段进行帧集划分，通过随机排序操作对其进行数据增强；并对视频片段进行关键帧的提取，对关键帧提取光流信息；步骤S2：将获取到视频片段输入ResNext101网络提取时序特征，并对其进行压缩处理，将关键帧以及关键帧的光流信息输入Darknet网络提取空间特征以及运动特征；步骤S3：通过堆叠不同膨胀率的运动注意力模块获取多尺度特征；步骤S4：拼接时空特征通过通道注意力以进一步融合时空特征；步骤S5：通过分类、回归网络得到类别边界框以及置信度，经过非极大值抑制NMS，最后得出概率最大的边界框作为预测结果。2.根据权利要求1所述的基于多尺度特征融合注意力的实时动作检测方法，其特征在于：步骤S1具体包括以下步骤：步骤S11：将数据集视频片段以p帧的间隔均匀采样，将采样视频片段划分为n个等长的帧集，即S＝{s1,s2,
…
,s
n
}，每个帧集s
fi
由等长的视频帧序列组成；步骤S12：对帧集{s1,s2,
…
,s
n
}进行随机排序组成新的视频片段S'＝{s'1,s'2,
…
,s'
n
}，达到数据增强的效果，供训练过程使用；步骤S13：将输入视频片段划分为起始、中间、结尾三个部分，分别随机提取一帧作为关键帧，简要表示视频动作；步骤S14：使用RAFT模型对关键帧提取光流信息。3.根据权利要求2所述的基于多尺度特征融合注意力的实时动作检测方法，其特征在于：步骤S2具体包括以下步骤：步骤S21：将获取到视频片段输入3D骨干网络ResNext101网络提取时序特征M∈R
C
×
T
×
H
×
W
，其中T是输入帧的数量，H和W是输入图像的高度和宽度，C是输出通道的数量；步骤S22：将关键帧输入2D骨干网络Darknet网络提取空间特征K∈R
C'
×
H
×
W
；步骤S23：将RAFT模型提取的关键帧光流信息输入2D骨干网络Darknet网络提取运动特征O∈R
C
”×
H
×
W
；步骤S24：为匹配2D骨干网络的的输出特征图，将ResNext101输出特征M的深度维数减少到1，从而将输出体积压缩到[C
×
H
×
W]，得到压缩后的特征M'∈R
C
×
H
×
W
。4.根据权利要求3所述的基于多尺度特征融合注意力的实时动作检测方法，其特征在于：步骤S3具体包括以下步骤：步骤S31：分别将提取的三个特征K、O、M'经过两个投影层，生成512个通道的特征图；所述投影层采用一个1
×
1卷积层降低信道维数，一个3
×
3卷积层细化语义上下文；步骤S32：通过不同的膨胀率堆叠运动注意力模块，生成具有多个感受野的输出特征K'、O'、M”，以覆盖所有对象的尺度；所述运动注意力模块的结构表示为：X
out
＝X
attn
*X
res
+X
in
X
attn
＝F
attn
(APool(X
in
)；θ,Ω)X
res
＝F(X
in
；θ,Ω)式中，F(
·
)表示残差函数，APool(
·
)表示平均池层，θ和Ω分别表示卷积层的结构；使用APool(
·

【专利技术属性】
技术研发人员：柯逍，缪欣，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人