一种基于时空交叉注意力的实时动作定位方法技术

技术编号：34865578 阅读：30 留言：0更新日期：2022-09-08 08:10

本发明专利技术涉及一种基于时空交叉注意力的实时动作定位方法。首先对视频片段进行采样得到输入视频，并通过帧集划分进行关键帧的提取，将获取到视频片段输入R(2+1)D网络提取时序特征，将关键帧输入CSPNet网络提取空间特征。其次，对时序特征进行压缩，并将其与空间特征进行编码转换。计算时序特征与空间特征相互之间的潜在自适应，将其嵌入transformer自注意力进行特征的交叉表示，拼接特征并利用上下文注意力模块对特征进行融合。最后，通过回归、分类网络预测边界框位置以及运动类别，根据预测结果计算相邻帧各个类别的链接分数，采用维特比算法寻找生成动作管的最佳路径。算法寻找生成动作管的最佳路径。算法寻找生成动作管的最佳路径。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时空交叉注意力的实时动作定位方法

[0001]本专利技术涉及模式识别与计算机视觉领域，特别是一种基于时空交叉注意力的实时动作定位方法。

技术介绍

[0002]随着科技的发展，时空动作定位是近些年来的热点研究问题，在无人驾驶、安全监控、交通运输、人机交互系统等领域，实时时空动作定位的应用越来越广泛。以往的时空动作定位方法，直接将深度网络提取的时序特征与空间特征进行拼接，忽略了时序特征与空间特征间的数据来源不同，其特征中元素关联关系也不同。2D特征关注背景信息，侧重于局部结构和上下文信息对识别的重要性。而3D特征关注时序信息，侧重于单帧与相邻帧间的时间依赖关系。单纯的将2D和3D特征进行拼接，并不能有效得融合时空特征，反而使得时序特征与空间特征互相排斥，混淆了视频动作应当关注的运动区域。针对上述情况，我们提出一种基于时空交叉注意力的实时动作定位方法。

技术实现思路

[0003]本专利技术的目的在于提供一种基于时空交叉注意力的实时动作定位方法，能够有效地对时空动作进行定位。
[0004]为实现上述目的，本专利技术的技术方案是：一种基于时空交叉注意力的实时动作定位方法，包括如下步骤：
[0005]步骤S1、对视频片段进行采样得到输入视频，并通过帧集划分进行关键帧的提取；
[0006]步骤S2、将获取到视频片段输入R(2+1)D网络提取时序特征，将关键帧输入CSPNet网络提取空间特征；
[0007]步骤S3、压缩时序特征，空间特征进行编码处理，计算时序特征与空间特征相互...

【技术保护点】

【技术特征摘要】
1.一种基于时空交叉注意力的实时动作定位方法，其特征在于，包括如下步骤：步骤S1、对视频片段进行采样得到输入视频，并通过帧集划分进行关键帧的提取；步骤S2、将获取到视频片段输入R(2+1)D网络提取时序特征，将关键帧输入CSPNet网络提取空间特征；步骤S3、压缩时序特征，空间特征进行编码处理，计算时序特征与空间特征相互之间的潜在自适应，通过transformer自注意力进行特征间的交叉表示；步骤S4、拼接特征，并对特征进行融合，通过回归、分类预测边界框位置以及运动类别，利用IOU损失、二元交叉熵损失分别计算边界框损失和类别损失；步骤S5、根据预测结果计算相邻帧各个类别的链接分数，采用维特比算法寻找生成动作管的最佳路径。2.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法，其特征在于，所述步骤S1具体实现如下：步骤S11、将输入视频片段以l帧的间隔均匀采样作为输入视频片段；步骤S12、将输入视频片段划分为n个等长的帧集，即S＝{s1,s2,
…
,s
n
}，每个帧集s
fi
由等长的视频帧序列组成，f
i
∈[1,n]；步骤S13、抽取s1、s
n/2
、s
n
帧集，选取帧集中间帧作为关键帧简要表示动作。3.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法，其特征在于，所述步骤S2具体实现如下：步骤S21、将输入视频片段输入3D骨干网络即R(2+1)D网络提取时序特征M(X
M
∈R
C
×
I
×
H
×
W
)，其中I是输入帧的数量，H和W是输入图像的高度和宽度，C是输出通道的数量；步骤S22、所述R(2+1)D网络为动作识别中主流的主干网络之一，通过将3D卷积显式分解为两个独立且连续的操作，即2D空间卷积和1D时间卷积，对时序运动信息进行建模；步骤S23、将关键帧输入2D骨干网络即CSPNet网络提取空间特征P(X
P
∈R
C
×
H
×
W
)。4.根据权利要求3所述的一种基于时空交叉注意力的实时动作定位方法，其特征在于，所述步骤S3具体实现如下：步骤S31、为匹配2D骨干网络的输出特征图，将R(2+1)D网络输出特征M的深度维数减少到1，压缩为[C
×
H
×
W]；步骤S32、将压缩后的时序特征以及空间特征的编码由[C
×
H
×
W]大小转化为[H
×
W
×
C]大小，并平铺特征得到M
′
(X
M
′
∈R
T
×
C
)、P
′
(X
P
′
∈R
T
×
C
)，其中T＝H
×
W；步骤S33、分别对时序特征X
M
′
∈R
T
×
C
与空间特征X
P
′
∈R
T
×
C
进行位置嵌入，使其携带时间信息，具体公式如下：信息，具体公式如下：其中，PE为位置嵌入矩阵，其计算公式如下：
其中，PE[i,2j]表示PE位置嵌入矩阵中第i行，第2j列的值为PE[i,2j+1]表示PE位置嵌入矩阵中第i行，第2j+1列的值为步骤S34、计算时序特征X
M'
∈R
T
×
C
到空间特征X
P'
∈R
T
×
C
的潜在自适应表示Y
P
′
以及空间特征X
P
′
∈R
T
×
C
到时序特征X
M
′
∈R
T
×
C
的潜在自适应表示Y
M
′
，计算如下：计算从时序特征X
M
′
∈R
T
×
C
到空间特征X
P
′
∈R
T
×
C
的潜在自适应表示为Y
P
′
＝CM
M
′→
P
′
(X
P
′
，X
M
′
)∈R
T
×
C
：其中，定义其中，其中，为权重；X
P
′
，X
M
′
通过softmax计算得分矩阵softmax(
·
)∈R
T
×
T
，V
M
′
通过得分矩阵进行加权汇总得到Y
P
′
；计算从空间特征X
P
′
∈R
T
×
C
到时序特征X
M
′
∈R
T
×
C
的潜在自适应表示为Y
M'
＝CM
P'
→
M'
(X
M'
，X
P'
)∈R
T
×
C
：其中，定义其中，其中，为权重；X
M'
，X
P'
通过softmax计算得分矩阵softmax(
·
)∈R

【专利技术属性】
技术研发人员：柯逍，缪欣，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人