基于全局知识挖掘和前景注意力的交互视频动作检测方法技术

技术编号:34812607 阅读:60 留言:0更新日期:2022-09-03 20:21
本发明专利技术公开了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,准确地实现了对视频中动作实例的定位和分类;方法的具体步骤如下:对视频进行预处理,通过I3D网络将生成的视频帧获得时空特征序列,将特征序列输入到上下文信息提取模块提取不同层次的特征序列F,通过时间信息提取模块挖掘视频的全局信息,将特征序列F和特征序列连接起来,得到粗时间边界和粗分类,根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征;本发明专利技术基于已知数据集对视频中的动作实例进行高效定位和分类,并且方法收敛速度快。并且方法收敛速度快。并且方法收敛速度快。

【技术实现步骤摘要】
基于全局知识挖掘和前景注意力的交互视频动作检测方法


[0001]本专利技术属于计算机视觉和模式识别
,涉及一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,可以用少量的提案对视频中的动作实例进行定位和分类,在在两个常用的时序动作检测数据集上,验证了该模型的有效性;

技术介绍

[0002]近几年来,随着互联网视频的大量涌现,对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支,已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位,并预测人的动作类别。时序动作检测与动作检测相比,在对视频中的每个动作实例分类的基础上,还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段,然后对这些视频片段进行分类和定位,以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果,就必须将窗口之间的重叠度变高,这样就会产生巨大的计算量,影响模型的计算的速度,并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案,造成较多的冗余,浪费计算资源。并且,这些方法对于边界的预测不够灵活,动作实例的时间跨度相差很大,其中大部分较短,还有一部分很长,这样预定义的Anchor并不能够预测所有的动作实例。
[0003]然而,时序动作检测采用Anchor

free的方法开始涌现,它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小,只需要在每个时间位置生成一个提案,表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案,降低了计算量。
[0004]现有技术还存在以下弊端:一是无法有效地解决视频中的时间信息,二是在处理视频特征的过程中很少考虑前景信息,所以当前急需一种高效的基于全局信息挖掘和前景注意的时序动作检测方法。

技术实现思路

[0005]本专利技术提供了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,本专利技术弥补上下文信息捕获模型因为下采样丢失的时序信息,同时增强每个视频帧的前景特征,可用于精细化动作实例的分类和边界。
[0006]该方法具体包含以下步骤:
[0007]1)对视频进行预处理,将未修剪的视频抽取成帧,表示为在训练集中包含T帧;
[0008]2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F

,使特征包含整个视频的时间和空间信息,把特征序列F

作为整个视频的特征表示;
[0009]3)将特征序列F

输入到上下文信息提取模块提取不同层次的特征,采用线性插值
将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征T
n
∈{2,4,8,

,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;
[0010]4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;
[0011]5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列F
l
连接起来,获得具有丰富上下文信息的特征序列
[0012][0013]6)基于以上特征,得到粗时间边界和粗分类c
C
,代表位置i到开始时间的距离,代表位置i到结束时间的距离,i∈{0,1,

,t

1},t代表的是金字塔特征的时间长度;
[0014]7)获取第i个位置开始时间和结束时间:
[0015][0016]其中表示特征中相应第i个位置的粗开始时间,表示特征中相应第i个位置的粗结束时间;
[0017]8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:
[0018][0019]其中和分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,和分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,L
bce
是二元交叉熵的损失函数,α和β是超参数。
[0020]优选的,所述通过时间信息提取模块获取时间信息的具体步骤如下:
[0021]利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征式中T
n
代表不同的时间尺度,C为特征的通道,具体公式如下:
[0022][0023]式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;
[0024]优选的,所述利用前景信息增强模块得到精细化特征,具体过程如下:
[0025]1)将粗边界和粗分类的结果输入到边界池化层,
[0026]2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧x
i
∈R
H
×
W
×
C
进行图像分块处理,将H
×
W
×
C的图片用P
×
P大小的块将每一个视频帧分成D=HW/P2个块;
[0027]将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
[0028]F
frame
=Linear(FSA(x
i
))i=1,

,T,(5)
[0029]式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
[0030]3)将F
frame
与上下文信息提取模块输出的帧级特征进行融合,得到特征F

frame
作为边界池化的另一个输入,用于精细预测;
[0031]4)把粗预测过程中的特征和F,以及精细预测过程中的帧级特征F

frame
经过边界池化得到细粒度的特征和
[0032]5)和分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量预测边界回归的偏移量和分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类c
R
,最后将得到的偏移量加到粗边界获得精细化边界化边界和分别表示精细化的开始和结束的时间;
[0033]优选的,所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,该方法具体包含以下步骤:1)对视频进行预处理,将未修剪的视频抽取成帧,表示为在训练集中包含T帧;2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F

,使特征包含整个视频的时间和空间信息,把特征序列F

作为整个视频的特征表示;3)将特征序列F

输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征T
n
∈{2,4,8,

,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列F
l
连接起来,获得具有丰富上下文信息的特征序列获得具有丰富上下文信息的特征序列6)基于以上特征,得到粗时间边界和粗分类c
C
,代表位置i到开始时间的距离,代表位置i到结束时间的距离,i∈{0,1,

,t

1},t代表的是金字塔特征的时间长度;7)获取第i个位置开始时间和结束时间:其中表示特征中相应第i个位置的粗开始时间,表示特征中相应第i个位置的粗结束时间;8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:其中和分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,和分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,L
bce
是二元交叉熵的损失函数,α和β是超参数。2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述通过时间信息提取模块获取时间信息的具体步骤如下:利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征式中T
n
代表不同的时间尺度,C为特征的通道,
具体公式如下:式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述利用前景信息增强模块得到精细化特征,具体过程如下:...

【专利技术属性】
技术研发人员:高赞崔兴磊陶俊伟宋健明王水跟朱文印张蕊
申请(专利权)人:青岛海尔智能技术研发有限公司烟台艾睿光电科技有限公司苏州天瞳威视电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1