当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于时空交叉注意力的实时动作定位方法技术

技术编号:34865578 阅读:30 留言:0更新日期:2022-09-08 08:10
本发明专利技术涉及一种基于时空交叉注意力的实时动作定位方法。首先对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取,将获取到视频片段输入R(2+1)D网络提取时序特征,将关键帧输入CSPNet网络提取空间特征。其次,对时序特征进行压缩,并将其与空间特征进行编码转换。计算时序特征与空间特征相互之间的潜在自适应,将其嵌入transformer自注意力进行特征的交叉表示,拼接特征并利用上下文注意力模块对特征进行融合。最后,通过回归、分类网络预测边界框位置以及运动类别,根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。算法寻找生成动作管的最佳路径。算法寻找生成动作管的最佳路径。

【技术实现步骤摘要】
一种基于时空交叉注意力的实时动作定位方法


[0001]本专利技术涉及模式识别与计算机视觉领域,特别是一种基于时空交叉注意力的实时动作定位方法。

技术介绍

[0002]随着科技的发展,时空动作定位是近些年来的热点研究问题,在无人驾驶、安全监控、交通运输、人机交互系统等领域,实时时空动作定位的应用越来越广泛。以往的时空动作定位方法,直接将深度网络提取的时序特征与空间特征进行拼接,忽略了时序特征与空间特征间的数据来源不同,其特征中元素关联关系也不同。2D特征关注背景信息,侧重于局部结构和上下文信息对识别的重要性。而3D特征关注时序信息,侧重于单帧与相邻帧间的时间依赖关系。单纯的将2D和3D特征进行拼接,并不能有效得融合时空特征,反而使得时序特征与空间特征互相排斥,混淆了视频动作应当关注的运动区域。针对上述情况,我们提出一种基于时空交叉注意力的实时动作定位方法。

技术实现思路

[0003]本专利技术的目的在于提供一种基于时空交叉注意力的实时动作定位方法,能够有效地对时空动作进行定位。
[0004]为实现上述目的,本专利技术的技术方案是:一种基于时空交叉注意力的实时动作定位方法,包括如下步骤:
[0005]步骤S1、对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取;
[0006]步骤S2、将获取到视频片段输入R(2+1)D网络提取时序特征,将关键帧输入CSPNet网络提取空间特征;
[0007]步骤S3、压缩时序特征,空间特征进行编码处理,计算时序特征与空间特征相互之间的潜在自适应,通过transformer自注意力进行特征间的交叉表示;
[0008]步骤S4、拼接特征,并对特征进行融合,通过回归、分类预测边界框位置以及运动类别,利用IOU损失、二元交叉熵损失分别计算边界框损失和类别损失;
[0009]步骤S5、根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。
[0010]相较于现有技术,本专利技术具有以下有益效果:
[0011]1、本专利技术提出对关键帧的提取方法,与以往仅使用当前帧作为关键帧相比,本专利技术方法更能够表示动作的经过。
[0012]2、本专利技术提出基于空交叉特征融合注意力,利用时空交叉变压器对时空特征进行编码,引导时序特征和空间特征之间的融合,增强特征间的关联性,避免时间特征与空间特征的相斥性对动作识别带来的影响。
[0013]3、本专利技术使用通道拼接以及注意机制来平滑地聚合时空特征。与以往的方法注意力融合方法不同,注意机制有效的增强了特征的有效信息,进一步融合时空特征。
附图说明
[0014]图1为本专利技术的原理示意图。
具体实施方式
[0015]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0016]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0017]如图1所示,本实施例提供了一种基于时空交叉注意力的实时动作定位方法,具体包括以下步骤:
[0018]步骤S1、对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取;
[0019]步骤S2、将获取到视频片段输入R(2+1)D网络提取时序特征,将关键帧输入CSPNet网络提取空间特征;
[0020]步骤S3、压缩时序特征,空间特征进行编码处理,计算时序特征与空间特征相互之间的潜在自适应,通过transformer自注意力进行特征间的交叉表示;
[0021]步骤S4、拼接特征对特征进行融合,通过回归、分类预测边界框位置以及运动类别,利用IOU损失、二元交叉熵损失以及分别计算边界框损失以及类别损失;
[0022]步骤S5、根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。
[0023]在本实施例中,包括步骤S1具体包括以下步骤:
[0024]步骤S11、将输入视频片段以l帧的间隔均匀采样作为输入视频片段;
[0025]步骤S12、将输入视频片段划分为n个等长的帧集,即S={s1,s2,

,s
n
},每个帧集s
fi
由等长的视频帧序列组成;
[0026]步骤S13、抽取s1、s
n/2
、s
n
帧集,选取帧集中间帧作为关键帧简要表示动作。
[0027]在本实施例中,步骤S2具体包括以下步骤:
[0028]步骤S21、将输入视频片段输入3D骨干网络R(2+1)D网络提取时序特征M(X
M
∈R
C
×
I
×
H
×
W
),其中I是输入帧的数量,H和W是输入图像的高度和宽度,C是输出通道的数量;
[0029]步骤S22、所述R(2+1)D网络为动作识别中主流的主干网络之一,通过将3D卷积显式分解为两个独立且连续的操作,即2D空间卷积和1D时间卷积,对时序运动信息进行建模。
[0030]步骤S23、将关键帧输入2D骨干网络CSPNet网络提取空间特征P(X
P
∈R
C
×
H
×
W
);
[0031]在本实施例中,步骤S3具体包括以下步骤:
[0032]步骤S31、为匹配2D骨干网络的输出特征图,将R(2+1)D输出特征M的深度维数减少到1压缩为[C
×
H
×
W];
[0033]步骤S32、将压缩后的时序特征以及空间特征的编码由[C
×
H
×
W]大小转化为[H
×
W
×
C]大小,并平铺特征得到M'(X
M'
∈R
T
×
C
)、P'(X
P'
∈R
T
×
C
),其中T=H
×
W;
[0034]步骤S33、分别对时序特征X
M'
∈R
T
×
C
与空间特征X
P'
∈R
T
×
C
进行位置嵌入,使其携带
时间信息,具体公式如下:
[0035][0036][0037]其中,PE为位置嵌入矩阵,其计算公式如下:
[0038][0039][0040]其中,PE[i,2j]表示PE位置嵌入矩阵中第i行,第2j列的值为PE[i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空交叉注意力的实时动作定位方法,其特征在于,包括如下步骤:步骤S1、对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取;步骤S2、将获取到视频片段输入R(2+1)D网络提取时序特征,将关键帧输入CSPNet网络提取空间特征;步骤S3、压缩时序特征,空间特征进行编码处理,计算时序特征与空间特征相互之间的潜在自适应,通过transformer自注意力进行特征间的交叉表示;步骤S4、拼接特征,并对特征进行融合,通过回归、分类预测边界框位置以及运动类别,利用IOU损失、二元交叉熵损失分别计算边界框损失和类别损失;步骤S5、根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。2.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法,其特征在于,所述步骤S1具体实现如下:步骤S11、将输入视频片段以l帧的间隔均匀采样作为输入视频片段;步骤S12、将输入视频片段划分为n个等长的帧集,即S={s1,s2,

,s
n
},每个帧集s
fi
由等长的视频帧序列组成,f
i
∈[1,n];步骤S13、抽取s1、s
n/2
、s
n
帧集,选取帧集中间帧作为关键帧简要表示动作。3.根据权利要求1所述的一种基于时空交叉注意力的实时动作定位方法,其特征在于,所述步骤S2具体实现如下:步骤S21、将输入视频片段输入3D骨干网络即R(2+1)D网络提取时序特征M(X
M
∈R
C
×
I
×
H
×
W
),其中I是输入帧的数量,H和W是输入图像的高度和宽度,C是输出通道的数量;步骤S22、所述R(2+1)D网络为动作识别中主流的主干网络之一,通过将3D卷积显式分解为两个独立且连续的操作,即2D空间卷积和1D时间卷积,对时序运动信息进行建模;步骤S23、将关键帧输入2D骨干网络即CSPNet网络提取空间特征P(X
P
∈R
C
×
H
×
W
)。4.根据权利要求3所述的一种基于时空交叉注意力的实时动作定位方法,其特征在于,所述步骤S3具体实现如下:步骤S31、为匹配2D骨干网络的输出特征图,将R(2+1)D网络输出特征M的深度维数减少到1,压缩为[C
×
H
×
W];步骤S32、将压缩后的时序特征以及空间特征的编码由[C
×
H
×
W]大小转化为[H
×
W
×
C]大小,并平铺特征得到M

(X
M

∈R
T
×
C
)、P

(X
P

∈R
T
×
C
),其中T=H
×
W;步骤S33、分别对时序特征X
M

∈R
T
×
C
与空间特征X
P

∈R
T
×
C
进行位置嵌入,使其携带时间信息,具体公式如下:信息,具体公式如下:其中,PE为位置嵌入矩阵,其计算公式如下:
其中,PE[i,2j]表示PE位置嵌入矩阵中第i行,第2j列的值为PE[i,2j+1]表示PE位置嵌入矩阵中第i行,第2j+1列的值为步骤S34、计算时序特征X
M'
∈R
T
×
C
到空间特征X
P'
∈R
T
×
C
的潜在自适应表示Y
P

以及空间特征X
P

∈R
T
×
C
到时序特征X
M

∈R
T
×
C
的潜在自适应表示Y
M

,计算如下:计算从时序特征X
M

∈R
T
×
C
到空间特征X
P

∈R
T
×
C
的潜在自适应表示为Y
P

=CM
M
′→
P

(X
P

,X
M

)∈R
T
×
C
:其中,定义其中,其中,为权重;X
P

,X
M

通过softmax计算得分矩阵softmax(
·
)∈R
T
×
T
,V
M

通过得分矩阵进行加权汇总得到Y
P

;计算从空间特征X
P

∈R
T
×
C
到时序特征X
M

∈R
T
×
C
的潜在自适应表示为Y
M'
=CM
P'

M'
(X
M'
,X
P'
)∈R
T
×
C
:其中,定义其中,其中,为权重;X
M'
,X
P'
通过softmax计算得分矩阵softmax(
·
)∈R

【专利技术属性】
技术研发人员:柯逍缪欣
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1