一种自适应感知的视频时序动作定位系统及其方法技术方案

技术编号：37441552 阅读：33 留言：0更新日期：2023-05-06 09:13

本发明专利技术公开一种自适应感知的视频时序动作定位系统，所述视频时序动作定位系统的编码器和解码器内分别还设置有时序感知注意力模块；所述全局感知注意力层用于视频时序动作的分支特征序列中每个相关位置的交互构建连续性的动作区域模型E

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应感知的视频时序动作定位系统及其方法

：
[0001]本专利技术属于视频处理
，尤其涉及一种自适应感知的视频时序动作定位方法。

技术介绍
：
[0002]时序动作定位是视频理解的一个重要领域，该任务旨在对视频未剪辑，视频时长较长，动作通常只发生在视频中的一小段时间内等情况进行处理。除了预测具体动作之外，时序动作定位还要预测动作的起始和终止时间，更加接近现实场景。现有方法主要可大致划分为如下三种类型：
[0003](一)基于锚点的时序动作定位方法。该类方法的本质是预先定义好一系列不同时长的滑动窗口或锚点时序区间，之后判断每个滑动窗口位置或锚点时序区间是否包含动作并对边界进行微调，以产生候选时序区间。部分方法[22,46,11,6,26,20,31]需要首先预先定义一系列滑动窗口或锚定不同持续时间的时间区域，然后确定它们中的每一个是否包含动作并微调边界。TURN[11]提出了一种时间单元回归方法，将视频特征转换为单元特征，然后对动作分数和回归动作边界进行分类。CBR[10]还提出了一种级联边界回归模型，该模型可...

【技术保护点】

【技术特征摘要】
1.一种自适应感知的视频时序动作定位系统，所述视频时序动作定位系统包括特征提取网络、卷积映射模块、编码器和解码器；其特征在于，所述编码器和解码器内分别还设置有时序感知注意力模块；所述时序感知注意力模块由卷积层、全局感知注意力层和局部卷积位移层构成；其中：所述时序感知注意力模块预测视频动作的区间和类别，包括如下步骤：所述卷积层将输入视频动作提取特征序列E
in
线性投影和重塑生成视频时序动作的分支特征序列E
feat
；所述全局感知注意力层用于视频时序动作的分支特征序列E
feat
中每个相关位置的交互构建连续性的动作区域模型E
attn
；所述局部卷积位移层用于对视频时序动作的分支特征序列E
feat
中相邻帧特征的局部上下文进行时间和通道维度的移位构建帧内和帧间信息之间的动作局部交互模型E
conv
；所述时序感知注意力模块按照如下公式对所述动作区域模型E
attn
和所述动作局部交互模型E
conv
加权求和构造了保持视频动作连续性的时序特征：E
e
＝αE
attn
+(1
‑
α)E
conv
其中α为可学习的标量。2.根据权利要求1所述的一种自适应感知的视频时序动作定位系统，其特征在于：所述全局感知注意力层构建连续的动作区域模型E
attn
过程，包括如下步骤：101、计算视频时序动作的分支特征序列E
feat
的每一个查询q
i
与三个相邻且不重叠的窗口中的一组键值的注意力分数，其中j∈{i
‑
w,i,i+w}指向三组相邻且不重叠的窗口；102、计算相邻q
i
和q
j
之间的余弦相似度作为权重δ
j
；其中：q
i
指当前需要计算的查询，q
j
指关注的其他查询的统称；103、对步骤101中计算得到分数通过步骤102中的权重进行加权求和，得到每一个q
i
的注意力分数；该注意力分数的计算可表示为如下公式：其中：δ
j
＝cosine(q
i
,q
j
)；104、对划分的每一个头模块进行注意力计算后，将所有头的结果进行拼接，得到最终的结果E
attn
；全局感知注意力的输出计算如下：；全局感知注意力的输出计算如下：其中Q
i
,K
i
,V
i
是多头注意力中每个头包含的嵌入；该分时输出的将与局部卷积移位分支的输出交互。3.根据权利要求1所述的一种自适应感知的视频时序动作定位系统，其特征在于：所述局部卷积位移层构建动作局部交互模型E
conv
过程，包括如下步骤：201、将一组视频时序动作的分支特征序列E
feat
拼接得局部交互特征序列；在局部交互特征序列由通道维度特征序列为D
h
和T
D
的特征序列；所述通道维度特征序列D
h
包含了时间
区域的特征，所述时间维度特征序列T
D
包含了每一帧中的特征；视频时序动作的分支特征序列202、分别对通道维度特征序列为D
h
和T
D
的特征序列在维度上执行移位操作；通过在D
h
方向进行交错移位，T
D
方向的每一列帧特征与相邻帧相互作用；移位产生的空位用0填充，截取原始位置的特征作为一次操作后的结果；将两个方向的移位结果通过线性映射后相加，并通过组归一化层后，使用残差连接和线性映射得到最终的移位结果E
conv
。4.根据权利要求1
‑
3任一项所述的一种自适应感知的视频时序动作定位系统，其特征在于：所述编码器与所述解码器对视频时序动作的特征序列交互过程，包括如下步骤：301、从特征提取网络中提取视频特征后，令S
v
∈R
C
×
T
表示这些序列化特征，同时将一组视频特征序列位置嵌入编码器中进行初始化；302、在编码阶段，编码器将视频特征和位置嵌入作为输入E
in
，并通过L
E
编码器层得到编码器的最终嵌入E
e
；对第l层的计算过程表示如下：：其中为该层中间过程的表示，E
l
‑1表示上一次的输出；303、在解码阶段，解码器将来自编码器的嵌入E
e
和一组候选查询作为...

【专利技术属性】
技术研发人员：郭晓杰，欧阳毅铮，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人