一种基于外部注意力和特征增强的时序动作定位方法技术

技术编号：39501503 阅读：16 留言：0更新日期：2023-11-24 11:32

本发明专利技术提供一种基于外部注意力和特征增强的时序动作定位方法，包括利用预先训练好的通用动作分类网络提取未经剪辑视频的视频特征，将提取的视频特征输入到配备外部注意力模块的

全部详细技术资料下载

【技术实现步骤摘要】
一种基于外部注意力和特征增强的时序动作定位方法

[0001]本专利技术涉及时序动作定位
，具体涉及一种基于外部注意力和特征增强的时序动作定位方法
。

技术介绍

[0002]随着互联网的发展，视频已经是人们生活中不可或缺的一部分，视频中的暴力行为等场景会严重影响青少年的身心健康，需要对视频的分享传播进行审核控制
。
而对于视频中的精彩片段，智能化的准确定位能够提高剪辑的速度和质量
。
[0003]现有的基于
Transformer
的模型，实现了端到端的定位效果
。
该模型
(ActionFormer)
采用
3D
卷积网络对原始视频进行特征提取，然后采用带有局部自注意力的
Transformer
块构建特征金字塔，最后通过卷积网络实现分类和回归预测
。ActionFormer
不仅模型简单，而且取得了足够好的效果
。
但是本申请的专利技术人经过研究发现，
ActionFormer
仍然存在以下问题：虽然局部自注意力通过将注意力限制在了局部窗口内，能够减少自注意力所固有的计算复杂度，但其本质仍为自注意力，因此不能最大程度的降低模型的计算复杂度；另外通过
Transformer
块穿插的降采样层所提取的特征金字塔，虽然包含了多尺度的特征信息，但不同尺度特征之间的不一致性会干扰训练期间的梯度训练，并且会降低特征金字塔结构的有效性
>。

技术实现思路

[0004]针对现有用于视频定位的基于
Transformer
的
ActionFormer
模型，存在带有局部自注意力的
Transformer
块本质仍为自注意力，不能最大程度的降低模型的计算复杂度；另外通过
Transformer
块穿插的降采样层所提取的特征金字塔，不同尺度特征之间的不一致性会干扰训练期间的梯度训练，并且会降低特征金字塔结构有效性的技术问题，本专利技术提供一种基于外部注意力和特征增强的时序动作定位方法
。
[0005]为了解决上述技术问题，本专利技术采用了如下的技术方案：
[0006]一种基于外部注意力和特征增强的时序动作定位方法，包括以下步骤：
[0007]S1、
利用预先训练好的通用动作分类网络提取未经剪辑视频的视频特征
F
＝
{R
B
×
C
×
T
}
；其中，
B
为未经剪辑视频的个数，
C
为通道数，
T
为序列长度的向量数；
[0008]S2、
将提取的视频特征
F
输入到配备外部注意力模块的
Transformer
层，通过
n
次下采样操作，提取到
n
个不同尺度的特征，即多尺度特征金字塔
[0009][0010]S3、
利用多尺度特征增强模块对多尺度特征金字塔进行不同尺度特征之间的特征增强和不同尺度特征的特征融合；
[0011]S4、
将融合和增后的特征输入到包含分类和回归组件的检测头，从而得到预测的动作类别标签和动作起止边界
。
[0012]进一步，所述步骤
S1
中通用动作分类网络选用
I3D
或
TSP
网络模型
。
[0013]进一步，所述步骤
S2
中配备外部注意力模块的
Transformer
层，先将提取的视频特征
F
经过层归一化后输入外部注意力模块，在外部注意力模块中输入的特征
F
in
先经过含有
N
‑
heads
的
Query
线性层，然后与
Key
的记忆单元
M
k
进行矩阵相乘，之后经过归一化操作得到一个
N*N
的注意力地图，最后与
Value
的记忆单元
M
v
进行矩阵相乘得到输出结果
F
out
，随后输出结果
F
out
与提取的视频特征
F
进行特征相加，该相加后的输出一方面经过层归一化后输入前馈神经网络，另一方面直接与前馈神经网络的输出进行特征相加后即得到多尺度特征金字塔
。
[0014]进一步，所述外部注意力模块的输出结果
F
out
计算公式如下：
[0015][0016]其中，
Norm
代表归一化操作
。
[0017]进一步，所述步骤
S3
中利用多尺度特征增强模块对多尺度特征金字塔进行不同尺度特征之间的特征增强，包括多尺度特征缩放和自适应融合增强，具体为将多尺度特征分为上层
、
中层和下层三个部分，在缩放过程中会遇到三个阶段，上层区域需要对相邻的
K
‑1个特征进行上采样，以匹配相同的尺度；中层区域需要对较大尺度的特征进行下采样，对较小尺度的特征进行上采样，以达到一致的尺寸；下层区域需要对所有较大尺度的特征进行下采样
。
[0018]进一步，所述
S3
中利用多尺度特征增强模块对多尺度特征金字塔进行不同尺度特征的特征融合，具体通过调用现有的注意力机制来融合和增强多尺度特征金字塔中的不同尺度特征，所述特征金字塔中第
i
个特征的融合增强特征采用如下公式表示：
[0019][0020][0021]其中，表示融合增强之后的特征，表示进行缩放之后的特征，
x
i
和
x
j
分别表示特征金字塔中第
i
个和第
j
个特征，
l
i
表示第
i
个特征的尺度，
l
j
表示第
j
个特征的尺度，
K
表示需要融合的特征个数，
Attention
是注意力函数
。
[0022]与现有技术相比，本专利技术提供的基于外部注意力和特征增强的时序动作定位方法，先利用预先训练好的通用动作分类网络提取未经剪辑视频的视频特征，接着利用配备外部注意力模块的
Transformer
层进行多尺度特征提取得到多尺度特征金字塔，然后对多尺度特征金字塔进行不同尺度特征之间的特征增强和特征融合，最后将增强融合后的特征输入检测头预测动作类别标签和动作起止边界
。
本专利技术通过在
Transformer
层中使用多头外部注意力模块，外部注意力本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于外部注意力和特征增强的时序动作定位方法，其特征在于，包括以下步骤：
S1、
利用预先训练好的通用动作分类网络提取未经剪辑视频的视频特征
F
＝
{R
B
×
C
×
T
}
；其中，
B
为未经剪辑视频的个数，
C
为通道数，
T
为序列长度的向量数；
S2、
将提取的视频特征
F
输入到配备外部注意力模块的
Transformer
层，通过
n
次下采样操作，提取到
n
个不同尺度的特征，即多尺度特征金字塔
S3、
利用多尺度特征增强模块对多尺度特征金字塔进行不同尺度特征之间的特征增强和不同尺度特征的特征融合；
S4、
将融合和增后的特征输入到包含分类和回归组件的检测头，从而得到预测的动作类别标签和动作起止边界
。2.
根据权利要求1所述的基于外部注意力和特征增强的时序动作定位方法，其特征在于，所述步骤
S1
中通用动作分类网络选用
I3D
或
TSP
网络模型
。3.
根据权利要求1所述的基于外部注意力和特征增强的时序动作定位方法，其特征在于，所述步骤
S2
中配备外部注意力模块的
Transformer
层，先将提取的视频特征
F
经过层归一化后输入外部注意力模块，在外部注意力模块中输入的特征
F
in
先经过含有
N
‑
heads
的
Query
线性层，然后与
Key
的记忆单元
M
k
进行矩阵相乘，之后经过归一化操作得到一个
N*N
的注意力地图，最后与
Value
的记忆单元
M
v
进行矩阵相乘得到输出结果
F

【专利技术属性】
技术研发人员：谭暑秋，张泽壮，
申请(专利权)人：重庆理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人