【技术实现步骤摘要】
基于全局知识挖掘和前景注意力的交互视频动作检测方法
[0001]本专利技术属于计算机视觉和模式识别
,涉及一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,可以用少量的提案对视频中的动作实例进行定位和分类,在在两个常用的时序动作检测数据集上,验证了该模型的有效性;
技术介绍
[0002]近几年来,随着互联网视频的大量涌现,对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支,已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位,并预测人的动作类别。时序动作检测与动作检测相比,在对视频中的每个动作实例分类的基础上,还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段,然后对这些视频片段进行分类和定位,以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果,就必须将窗口之间的重叠度变高,这样就会产生巨大的计算量,影响模型的计算的速度,并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案,造成较多的冗余,浪费计算资源。并且,这些方法对于边界的预测不够灵活,动作实例的时间跨度相差很大,其中大部分较短,还有一部分很长,这样预定义的Anchor并不能够预测所有的动作实例。
[0003]然而,时序动作检测采用Anchor
‑
free的方法开始涌现,它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影 ...
【技术保护点】
【技术特征摘要】
1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,该方法具体包含以下步骤:1)对视频进行预处理,将未修剪的视频抽取成帧,表示为在训练集中包含T帧;2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F
′
,使特征包含整个视频的时间和空间信息,把特征序列F
′
作为整个视频的特征表示;3)将特征序列F
′
输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征T
n
∈{2,4,8,
…
,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列F
l
连接起来,获得具有丰富上下文信息的特征序列获得具有丰富上下文信息的特征序列6)基于以上特征,得到粗时间边界和粗分类c
C
,代表位置i到开始时间的距离,代表位置i到结束时间的距离,i∈{0,1,
…
,t
‑
1},t代表的是金字塔特征的时间长度;7)获取第i个位置开始时间和结束时间:其中表示特征中相应第i个位置的粗开始时间,表示特征中相应第i个位置的粗结束时间;8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:其中和分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,和分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果,L
bce
是二元交叉熵的损失函数,α和β是超参数。2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述通过时间信息提取模块获取时间信息的具体步骤如下:利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征式中T
n
代表不同的时间尺度,C为特征的通道,
具体公式如下:式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述利用前景信息增强模块得到精细化特征,具体过程如下:...
【专利技术属性】
技术研发人员:高赞,崔兴磊,陶俊伟,宋健明,王水跟,朱文印,张蕊,
申请(专利权)人:青岛海尔智能技术研发有限公司烟台艾睿光电科技有限公司苏州天瞳威视电子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。