当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于松弛变换解码器的直接时序动作检测方法技术

技术编号:34362306 阅读:16 留言:0更新日期:2022-07-31 07:45
一种基于松弛变换解码器的直接时序动作检测方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测。本发明专利技术通过边界增强的特征表示,有效利用全局上下文信息,显著提高生成提名的鲁棒性;利用松弛匹配的策略使网络快速稳定收敛;引入了时间交并比来指导动作提名排序,在有限的预测中,覆盖所有视频中的动作真值,灵活、高效、快速、准确的完成时序动作检测任务。的完成时序动作检测任务。的完成时序动作检测任务。

A direct sequential action detection method based on relaxation transform decoder

【技术实现步骤摘要】
一种基于松弛变换解码器的直接时序动作检测方法


[0001]本专利技术属于计算机软件
,涉及时序动作检测技术,具体为一种基于松弛变换解码器的直接时序动作检测方法。

技术介绍

[0002]随着互联网上的视频数据爆炸式地增长,视频理解变得愈发重要。视频数据本身大多包含很多不重要的背景、无动作片段,无法直接用来识别,因此时序动作检测是一项刚需的技术。时序动作检测技术的目标是提取出一段未剪辑视频中的动作片段,并正确地预测其动作类别。一般地,时序动作检测任务由两个子任务组成:时序动作提名生成任务和动作分类任务,由于动作分类技术较为成熟,所以研究和专利技术重点集中在时序动作提名的生成,其主要的范式有两种。
[0003]第一种范式是基于锚点框的方法,其密集地生成多尺度的锚点框,来覆盖视频中的动作实例,例如TURN(Temporal Unit Regression Network)等。但由于视频中动作实例的长度可能由几秒到几十分钟不等,要想覆盖所有的动作实例,需要耗费极多的计算资源,因此无法有效地用于实际应用之中。
[0004]第二种范式是基于边界点检测的方法,其首先预测每一帧作为动作起始帧和动作终止帧的概率,之后应用自底向上的策略,完成边界帧的匹配,得到一系列的动作提名,例如BSN(Boundary Sensitive Network),BMN(Boundary Matching Network)等。但这种方法在预测边界概率的时候,只利用了本地的上下文,因此容易受到噪声的干扰,无法生成鲁棒的提名结果。
[0005]此外,这两种范式很大程度上依赖于精心设计的锚点放置或复杂的边界匹配机制,这些机制依赖于人类的先验知识,需要精细地调整参数。

技术实现思路

[0006]本专利技术要解决的问题是:现有的很多时序动作检测方法往往依赖于锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块,这些模块需要精细地调整参数,且耗费较长的运算时间。
[0007]本专利技术提出了一种直接生成时序动作提名的范式,能够基于全局上下文,时序自适应地调整特征表示,并直接、高效、快速、准确地生成时序上的动作提名。其中,时序自适应地调整特征表示指的是基于全局上下文,重新计算得到每一个时间点的特征权重。
[0008]本专利技术的技术方案为:一种基于松弛变换解码器的直接时序动作检测方法,对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:
[0009]1)生成训练特征阶段:使用基于ResNet

50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列L
f
分为若干个长度为L
s
帧的视频段,每段为由L
s
帧图像
组成图像序列S
f
,将图像序列S
f
送入I3D网络,经过预训练参数的卷积层和池化层,输出得到L
D
帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征其中,视频段长度L
s
的大小表示在全局上进行时间划分的细粒程度;
[0010]2)网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD

Net,模型包括以下配置:
[0011]2.1)计算边界概率:首先使用时间分割网络TSN对步骤1)得到的图像序列S
f
处理得到时序分割双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;
[0012]2.2)获得边界增强特征:对于1)中生成的高维特征和2.1)中计算出的边界概率序列,进行点乘操作,获得边界增强特征F
b
,再将边界增强特征F
b
送入多层感知机编码器得到编码特征F
enc
,实现通道上的交互;
[0013]2.3)解析边界增强特征:对于2.2)中获得的边界增强特征的编码特征F
enc
,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器

解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器

解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;
[0014]2.4)时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;
[0015]2.5)分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one

to

one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于O
t
的预测提名,为其分配相应的实际提名作为标签;
[0016]2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类并比较结果:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P

GCN进行分类;
[0017]3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数;
[0018]4)测试阶段:将待测试数据的视频特征序列输入到训练完成的RTD

Net模型中,生成动作提名,再利用2.6)中的两种方式,得到提名分类结果,实现时序动作检测。
[0019]本专利技术与现有技术相比有如下优点
[0020]本专利技术提出了一种直接生成动作提名的范式,无需锚点框、密集匹配以及非极大值抑制等依赖于人类先验知识的手工模块。直接生成动作提名的范式具有更少的超参数,易于调试,且在测试时具有更快的前向推理速度。
[0021]本专利技术使用了边界增强的特征表示,有效地利用了全局的上下文信息。边界增强的特征表示,有助于变换解码器在时序自适应地调整特征表示时,提升对于动作边界的辨
别能力,而不会因为平滑的视频特征预测出全局相似的提名结果;利用全局上下文信息,有效地降低本地噪声的干扰,能够显著地提高生成提名的鲁棒性。
[0022]本专利技术提出了松弛匹配策略来帮助模型收敛。和图像中的物体边界相比,视频中动作边界存在着定义不清晰的情况。基于松弛匹配策略,本专利技术给部分质量较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于松弛变换解码器的直接时序动作检测方法,其特征是对视频数据结合动作起始点和结束点的概率以实现边界增强,并通过注意力机制自适应调整特征,实现时序动作检测,所述时序动作检测步骤包括生成训练特征阶段、网络配置阶段、训练阶段以及测试阶段:1)生成训练特征阶段:使用基于ResNet

50的I3D网络对训练样例视频进行特征提取,对于每个视频,将视频图像序列L
f
分为若干个长度为L
s
帧的视频段,每段为由L
s
帧图像组成图像序列S
f
,将图像序列S
f
送入I3D网络,经过预训练参数的卷积层和池化层,输出得到L
D
帧的双流特征,将不同视频段的双流特征按照时间顺序拼接起来,再经过一个池化层,得到整个视频D维的高维特征其中,视频段长度L
s
的大小表示在全局上进行时间划分的细粒程度;2)网络配置阶段:基于多层感知机编码器和变换解码器,建立时序动作检测模型RTD

Net,模型包括以下配置:2.1)计算边界概率:首先使用时间分割网络TSN对步骤1)得到的图像序列S
f
处理得到时序双流特征,再送入由三个卷积层组成的边界概率预测模块,计算得到每个时间节点作为动作起始点和动作结束点的概率,得到边界概率序列;2.2)获得边界增强特征:对于1)中生成的高维特征和2.1)中计算出的边界概率序列,进行点乘操作,获得边界增强特征F
b
,再将边界增强特征F
b
送入多层感知机编码器得到编码特征F
enc
,实现通道上的交互;2.3)解析边界增强特征:对于2.2)中获得的边界增强特征的编码特征F
enc
,利用变换解码器进行解析,变换解码器包含ND个解码层,每个解码层包含一个自注意力层、一个编码器

解码器注意力层和两个线性映射层,输入的特征依次经过自注意力层、编码器

解码器注意力层和堆叠的线性映射层后输出,边界增强特征通过堆叠的ND个解码层后,实现特征的解析;2.4)时序动作提名的生成与评分:变换解码器输出的解析特征,送入三个不同的前馈神经网络:边界FFN、完整度FFN和分类FFN,三个前馈神经网络分别用于输出:动作提名的起始时刻和结束时刻、完整度分数以及置信度分数;2.5)分配训练标签:采用松弛的训练标签匹配策略:首先,根据定义的匹配代价,匹配器利用匈牙利算法得到一组最优的one

to

one匹配,每个获得正标签的预测提名都能被分配到一个相应的实际提名,作为训练标签,其次,计算预测提名和实际提名的overlap,选取overlap大于O
t
的预测提名,为其分配相应的实际提名作为标签;2.6)时序动作提名的分类:生成一系列的时序提名后,通过以下两类方法进行提名分类:第一种是选取UntrimmedNet视频级别top1的分类得分,第二种是将提名送入P

GCN进行分类;3)训练阶段:对配置的模型采用训练数据进行训练,使用交叉熵、L1距离、交并比作为损失函数,使用AdamW优化器,使用退火策略通过反向传播算法来更新网络参数,...

【专利技术属性】
技术研发人员:王利民谈婧唐嘉岐武港山
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1