当前位置: 首页 > 专利查询>南京大学专利>正文

基于自适应解码器的时空动作检测方法、设备及介质技术

技术编号:38131332 阅读:6 留言:0更新日期:2023-07-08 09:39
基于自适应解码器的时空动作检测方法、设备及介质,构建一个时空动作检测器OSD,首先将查询解耦为空间查询和时间查询;其次,对于视频骨干网络提取的全局视频特征,通过解码器自适应地根据空间查询的语义信息在全局视频特征上进行采样得到人物RoI特征;再次,RoI特征与时空查询分别进行自适应的特征混合,实现查询更新;最后,更新后的查询使用分类网络,同时获得人物位置框提名与对应的动作类别概率向量。本发明专利技术结合了查询定义与自适应解码器技术,能够提升基于查询的时空动作检测器的检测性能,在时空动作检测任务上具有自适应性强、检测流程直接、查询建模高效、检测结果准确等特点。特点。特点。

【技术实现步骤摘要】
基于自适应解码器的时空动作检测方法、设备及介质


[0001]本专利技术属于计算机软件
,涉及时序动作检测技术,具体为一种基于自适应解码器的时空动作检测方法、设备及介质。

技术介绍

[0002]时空动作检测任务的目标是对于一个视频片段,找到整段视频中各个人物的位置,并对每个人物所在不同时刻发生的动作逐一分类。传统的时空动作检测器采用的是两阶段的检测范式:首先,它使用独立的图像人物检测器,逐帧识别出视频里的人物位置框提名;同时,它使用视频骨干网络提取全局的视频特征;最后,根据人物位置框提名,在全局视频特征上进行RoI特征提取,并将其送入分类网络进行动作分类。这种动作检测器的缺点是:首先,图像人物检测器需要单独训练,才能用来训练视频骨干网络以及分类网络,多阶段训练会造成大量的计算开销;另外,单个人物的RoI(Region of Interest)特征往往使用RoI

Align等方法提取,其原理是在位置框内进行特征采样,使得不同大小的人物框都能得到相同尺寸的RoI特征,但考虑到动作检测场景中,人物与背景/物品/其他人物等语义信息存在交互,所以位置框内的特征无法建模框外的特征。
[0003]最近出现了基于查询的时空动作检测范式,它将动作检测问题形式化为集合预测问题。它通过基于Transformer结构的编码器

解码器生成一组人物位置框提名,同时预测每个框内的动作类别,通过预测框与真实框的二分图匹配进行训练。但是它仍然有空间分辨率受限、小人物检测能力不足、收敛速度慢、计算复杂度大等问题。

技术实现思路

[0004]本专利技术主要解决的问题是:传统动作检测器无法端到端训练,同时RoI特征提取忽视了视频中人物与背景/物品/其他人物存在语义交互的特性;新出现的基于查询的编码器

解码器式动作检测器存在空间分辨率受限、小人物检测能力不足、收敛速度慢、计算复杂度大等问题,即没有查询的设计存在性能瓶颈。
[0005]本专利技术的技术方案为:基于自适应解码器的时空动作检测方法,构建一个时空动作检测器OSD,用于视频动作检测,所述时空动作检测器OSD在基于查询的动作检测框架基础上,将查询解耦为空间查询和时间查询,对于视频骨干网络提取的全局视频特征,通过解码器自适应地根据空间查询的语义信息在全局视频特征上进行采样得到人物RoI特征,再将RoI特征与时空查询分别进行自适应的特征混合,实现查询更新;最后,更新后的查询使用分类网络,同时获得人物位置框提名与对应的动作类别概率向量,完成时空动作检测任务。
[0006]进一步的,所述时空动作检测器OSD的实现包括生成视频帧阶段、生成全局视频特征阶段、网络配置阶段、训练阶段以及测试阶段:
[0007]1)生成视频帧阶段:对于视频片段以设定帧率抽帧,再以τ帧为间隔采样形成视频帧序列,并对所有视频帧缩放为长宽一致的空间分辨率;
[0008]2)生成全局视频特征阶段:使用基于CSN

152的视频骨干网络对视频帧序列进行特征提取,得到网络不同阶段输出的相同帧数、不同长宽、不同通道数的特征图,通过卷积层将特征图通道数映射到相同维度,再通过空间最近邻算法将各个阶段的特征图映射到相同的长宽,得到全局视频特征;
[0009]3)网络配置阶段:基于查询建立时空动作检测器OSD的框架,包括以下配置:
[0010]3.1)查询生成:首先定义一组时空查询,包括N个查询,每个查询包括空间语义向量q
s
、时间语义向量q
t
以及位置向量,空间语义向量q
s
和时间语义向量q
t
分别通过正态分布N(0,1)进行随机初始化,位置向量初始化为覆盖整个视频帧;
[0011]3.2)解码器:解码器的输入是步骤2)中的全局视频特征和步骤3.1)中的N个查询,输出是经过解码器优化的具有相同格式的查询,通过叠加L层解码器对查询进行优化,解码器包括以下配置:
[0012]3.2.1)多头自注意力模块:对于3.1)中的N个查询进行自注意力增强,将每个查询的空间语义向量q
s
输入进一个多头自注意力模块,再使用正弦形式的位置编码量与空间语义向量q
s
相加,将IoF信息作为一个偏置先验加入注意力的权重,显式地将查询之间的包含关系考虑进来,得到增强空间语义向量q
s

,同时,将时间语义向量q
t
输入进另一个多头自注意力模块,得到增强时间语义向量q
t


[0013]3.2.2)自适应采样模块:对于增强空间语义向量q
s

,经过一个线性层与对应的位置向量相加,得到P
in
个采样点坐标,在2)中的全局视频特征逐帧进行采样,每帧的特征都采样P
in
个坐标对应的位置,最后将所有帧的特征级联,得到完整的时空采样矩阵M,得到人物RoI特征;
[0014]3.2.3)自适应混合模块:对3.2.2)的时空采样矩阵M与3.2.1)的增强后的查询逐个进行特征混合,具体方法为:对于每个查询的增强空间语义向量q
s

,经过线性层生成空间混合参数矩阵,利用此矩阵与经过空间池化后的时空采样矩阵M进行通道混合与空间混合,得到增强的空间特征矩阵M
s
,同时对于每个查询的增强时间语义向量q
t

,经过另一个线性层生成时间混合参数矩阵,利用此矩阵与经过时间池化后的时空采样矩阵M进行通道混合与时间混合,得到增强的时间特征矩阵M
t

[0015]3.2.4)查询更新模块:对得到的空间特征矩阵M
s
,经过一个线性层后,首先与每个查询的增强空间语义向量q
s

相加,得到更新后的空间语义向量,更新后的空间语义向量经过一个FFN后,与查询的位置向量相加,得到更新后的位置向量,对时间特征矩阵M
t
,经过一个线性层后,与每个查询的增强时间语义向量q
t

相加,得到更新后的时间语义向量;
[0016]3.3)分类模块:根据3.2.4)更新后的N个查询,生成N个检测提名,每个检测提名包括单个查询的人物位置框提名、框置信度以及动作类别预测向量,具体为:对于单个查询,首先通过位置向量解析人物位置框提名;其次空间语义向量经过线性分类器,得到人物位置框的置信度;最后空间语义向量与时间语义向量级联后经过线性分类器,得到人物所发生的动作类别预测向量;
[0017]4)训练阶段:对步骤3)配置的动作检测器网络进行训练,通过匈牙利算法,对N个检测提名与真值进行匹配,匹配后使用交叉熵、L1距离和GIoU损失函数计算检测提名与真值的损失,其加权和作为最终的损失函数,使用AdamW优化器,通过反向传播算法更新网络参数,不断重复直至达到迭代次数;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自适应解码器的时空动作检测方法,其特征是构建一个时空动作检测器OSD,用于视频动作检测,所述时空动作检测器OSD在基于查询的动作检测框架基础上,将查询解耦为空间查询和时间查询,对于视频骨干网络提取的全局视频特征,通过解码器自适应地根据空间查询的语义信息在全局视频特征上进行采样得到人物RoI特征,再将RoI特征与时空查询分别进行自适应的特征混合,实现查询更新;最后,更新后的查询使用分类网络,同时获得人物位置框提名与对应的动作类别概率向量,完成时空动作检测任务。2.根据权利要求1所述的基于自适应解码器的时空动作检测方法,其特征是所述时空动作检测器OSD的实现包括生成视频帧阶段、生成全局视频特征阶段、网络配置阶段、训练阶段以及测试阶段:1)生成视频帧阶段:对于视频片段以设定帧率抽帧,再以τ帧为间隔采样形成视频帧序列,并对所有视频帧缩放为长宽一致的空间分辨率;2)生成全局视频特征阶段:使用基于CSN

152的视频骨干网络对视频帧序列进行特征提取,得到网络不同阶段输出的相同帧数、不同长宽、不同通道数的特征图,通过卷积层将特征图通道数映射到相同维度,再通过空间最近邻算法将各个阶段的特征图映射到相同的长宽,得到全局视频特征;3)网络配置阶段:基于查询建立时空动作检测器OSD的框架,包括以下配置:3.1)查询生成:首先定义一组时空查询,包括N个查询,每个查询包括空间语义向量q
s
、时间语义向量q
t
以及位置向量,空间语义向量q
s
和时间语义向量q
t
分别通过正态分布N(0,1)进行随机初始化,位置向量初始化为覆盖整个视频帧;3.2)解码器:解码器的输入是步骤2)中的全局视频特征和步骤3.1)中的N个查询,输出是经过解码器优化的具有相同格式的查询,通过叠加L层解码器对查询进行优化,解码器包括以下配置:3.2.1)多头自注意力模块:对于3.1)中的N个查询进行自注意力增强,将每个查询的空间语义向量q
s
输入进一个多头自注意力模块,再使用正弦形式的位置编码量与空间语义向量q
s
相加,将IoF信息作为一个偏置先验加入注意力的权重,显式地将查询之间的包含关系考虑进来,得到增强空间语义向量q
s

,同时,将时间语义向量q
t
输入进另一个多头自注意力模块,得到增强时间语义向量q
t

;3.2.2)自适应采样模块:对于增强空间语义向量q
s

,经过一个线性层与对应的位置向量相加,得到P
in
个采样点坐标,在2)中的全局视频特征逐帧进行采样,每帧的特征都采样P
in
个坐标对应的位置,最后将所有帧的特征级联,得到完整的时空采样矩阵M,得到人物RoI特征;3.2.3)自适应混合模块:对3.2.2)的时空采样矩阵M与3.2.1)的增强后的查询逐个进行特征混合,具体方法为:对于每个查询的增强空间语义向量q
s

,经过线性层生成空间混合参数矩阵,利用此矩阵与经过空间池化后的时空采样矩阵M进行通道混合与空间混合,得到增强的空间特征矩阵M
s
,同时对于每个查询的增强时间语义向量q
t

,经过另一个线性层生成时间混合参数矩阵,利用此矩阵与经过时间池化后的时空采样矩阵M进行通道混合与时间混合,得到增强的时间特征矩阵M
t
;3.2.4)查询更新模块:对得到的空间特征矩阵M
s
,经过一个线性层后,首先与每个查询的增强空间语义向量q
s

相加,得到更新后的空间语义向量,更新后的空间语义向量经过一
个FFN后,与查询的位置向量相加,得到更新后的位置向量,对时间特征矩阵M
t
,经过一个线性层后,与每个查询的增强时间语义向量q
t

相加,得到更新后的时间语义向量;3.3)分类模块:根据3.2.4)更新后的N个查询,生成N个检测提名,每个检测提名包括单个查询的人物位置框提名、框置信度以及动作类别预测向量,具体为:对于单个查询,首先通过位置向量解析人物位置框提名;其次空间语义向量经过线性分类器,得到人物位置框的置信度;最后空间语义向量与时间语义向量级联后经过线性分类器,得到人物所发生的动作类别预测向量;4)训练阶段:对步骤3)配置的动作检测器网络进行训练,通过匈牙利算法,对N个检测提名与真值进行匹配,匹配后使用交叉熵、L1距离和GIoU损失函数计算检测提名与真值的损失,其加权和作为最终的损失函数,使用AdamW优化器,通过反向传播算法更新网络参数,不断重复直至达到迭代次数;5)测试阶段:将待测试的视频片段输入到训练完成的动作检测器中,通过步骤2)和步骤3)得到N个检测提名,最后根据框置信度分数阈值γ筛选可信的检测提名,提交以进行后续的性能度量。3.根据权利要求2所述的基于自适应解码器的时空动作检测方法,其特征是步骤2)具体为:用z
e
表示骨干网络输出的第e阶段经卷积层后得到的特征图标记,计算公式为:z
e
=log2(s
e
/s
base
)其中s
e
表示第e阶段特征图的空间下采样率,s
base
表示各阶段特征图最小的空间下采样率,即base阶段特征图的空间下采样率,对于各阶段的特征图,先使用卷积核大小为1*1*1的卷积层将不同阶段输出的特征通道数映射到相同维度D,再通过空间最近邻算法,将各阶段特征图上采样到base阶段特征图的空间分辨率,最终得到全局视频特征4.根据权利要求2所述的基于自适应解码器的时空动作检测方法...

【专利技术属性】
技术研发人员:王利民吴涛曹梦奇武港山
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1