一种多尺度时序行为识别方法技术

技术编号:24208513 阅读:36 留言:0更新日期:2020-05-20 15:45
本发明专利技术公开了一种多尺度时序行为识别方法,本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型,候选区域提案子网络将产生可能包含行为片段的候选区域,而分类子网将这些候选区域分类为特定的行为类别或背景,并进一步精修这些区域的时间边界,该方法保证了计算效率,使得使用的特征具有统一性,增强了在大范围时间尺度上检测行为的能力,整个网络是可端到端训练的,以便于进行整体优化,这是特征提取和时序行为识别的统一。

A multi-scale temporal behavior recognition method

【技术实现步骤摘要】
一种多尺度时序行为识别方法
本专利技术涉及视觉识别
,特别是指一种多尺度时序行为识别方法。
技术介绍
时序行为识别(Temporalactiondetection)是视觉内容理解中的一项要任务,旨在从未修剪的视频中检测人类行为片段,将该片段分类为几种行为类别之一,并精确地预测其开始和结束时间点。与视频理解中的其他任务(例如行为识别或时序行为提案)相比,它绝对更具挑战性,但更加实用。在现实生活中,大多数需要检测的视频都是具有多个不同行为段的未修剪的长时视频。例如,我们可能需要通过实时检测监视视频来监视监狱中囚犯的行为,或者我们需要在视频网站中过滤带有少儿不宜内容的视频。这些视频持续时间很长,而且总是包含复杂的行为片段;在行为识别领域,先前的方法着眼于视频中人类行为的特征。例如,改进的密集轨迹(iDT)使用手工的特征和光流特征,这取得较好的效果。后来,许多研究人员尝试通过使用深度神经网络来解决此问题。受二维的卷积网络的启发,有研究中提出了三维卷积网络(C3D)来同时学习空间和时间特征。该网络具有结构简单,时空特征良好结合的优点,但如今,由于视频中人类行为的模糊性和复杂性,时序行为识别的准确率仍处在较低的水平。视频中的行为片段时间跨度通常在几秒到几十秒之间,而大多数现有方法在检测大范围时间尺度上的短时行为片段时都无法取得良好的效果。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种多尺度时序行为识别方法,提高检测大范围时间尺度上的短时行为片段时的效果。基于上述目的本专利技术提供的一种多尺度时序行为识别方法,包括以下步骤:建立三维卷积特征金字塔网络模型,三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;对三维卷积特征金字塔网络模型进行训练;三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;候选区域提案子网络使用多级特征图挑选可能包含行为片段的候选区域;分类子网络根据候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。优选地,对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练;其中,对候选区域提案子网络进行训练包括:将锚段标定为正/负样本:若锚段与某些真实行为片段有重叠,且交并比高于0.7,或与某些真实行为片段有最高的交并比,则将该锚段标定为正标签,若锚段与所有的真实行为片段的交并比均低于0.3,则将该锚段标记为负样本;只采用正样本和负样本对候选区域提案子网络进行训练;对分类子网络进行训练包括:为每个候选区域分配行为类别标签:如果某候选区域与某真实行为片段具有最高交并比,同时交并比大于0.5,则给该候选区域标定为对应的行为类别标签,若某候选区域与所有真实的行为片段交并比都低于0.5,则将被标定为负标签;采用分配行为类别标签后的候选区域对分类子网络进行训练。优选地,对候选区域提案子网络进行训练时,正样本和负样本的数量比为1:1。优选地,三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图包括:对输入的视频帧提取时空特征;使用conv1a到conv5b形成了自下而上的途径;设定在时间尺度上相同的特征图为同一个金字塔级别的特征图;通过自上而下的通道和横向连接通道构建特征金字塔结构,生成多级特征图。优选地,自上而下的通道由多层上采样层组成,横向连接层是卷积核大小为1x1x1的三维卷积层。优选地,候选区域提案子网络使用多级特征图挑选可能包含行为片段的候选区域包括:从三维特征金字塔层次结构生成的每个特征图中生成相应锚段;为每个锚段分配正或负标签,并对锚段进行初步的边界回归;应用非极大值抑制法挑选出可能包含行为片段的候选区域。优选地,分类子网络根据候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界,包括:将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别;三维感兴趣区域池化层从相应的特征图中提取每个可能包含行为片段的候选区域的特征,得到子特征向量;在每个子特征向量内执行最大池化;将最大池化后输出特征向量经过一系列全连接层得到行为分类得分和精修后的行为片段起始时间。优选地,将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别符合以下公式:其中,是候选区域的时间长度,是某个视频的时间长度,是一个常数,是一金字塔级别,用于调整分配给每个级别的候选区域数量。优选地,本方法还包括:通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络。优选地,通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络包括:使用交叉熵损失函数描述分类损失,使用平滑L1损失函数描述回归损失,一个子网络的联合损失函数如下:其中和在候选区域提案子网络中代表锚段数,而在分类子网络中代表候选区域数,是两种损失的权衡因子,代表锚段/候选区域索引,是前/背景或某行为的概率预测值,则代表真实情况,是网络预测的锚段/候选区域与真实行为片段的偏移值,而则是锚段/候选区域与真实行为片段的真实偏移值。从上面所述可以看出,本专利技术提供的多尺度时序行为识别方法,本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型,候选区域提案子网络将产生可能包含行为片段的候选区域,而分类子网将这些候选区域分类为特定的行为类别或背景,并进一步精修这些区域的时间边界,该方法保证了计算效率,使得使用的特征具有统一性,增强了在大范围时间尺度上检测行为的能力,整个网络是可端到端训练的,以便于进行整体优化,这是特征提取和时序行为识别的统一。附图说明图1为本专利技术实施例的方法流程示意图;图2为本专利技术实施例的三维卷积特征金字塔结构示意图;图3为本专利技术实施例的三维卷积特征金字塔网络模型示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。一种多尺度时序行为识别方法,包括以下步骤:S101建立三维卷积特征金字塔网络模型(FPC3D),所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;S102对所述三维卷积特征金字塔网络模型进行训练;S103三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;S104候选本文档来自技高网...

【技术保护点】
1.一种多尺度时序行为识别方法,其特征在于,所述方法包括:/n建立三维卷积特征金字塔网络模型,所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;/n对所述三维卷积特征金字塔网络模型进行训练;/n所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;/n候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域;/n分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。/n

【技术特征摘要】
1.一种多尺度时序行为识别方法,其特征在于,所述方法包括:
建立三维卷积特征金字塔网络模型,所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;
对所述三维卷积特征金字塔网络模型进行训练;
所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;
候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域;
分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。


2.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练;
其中,对候选区域提案子网络进行训练包括:
将锚段标定为正/负样本:若锚段与某些真实行为片段有重叠,且交并比高于0.7,或与某些真实行为片段有最高的交并比,则将该锚段标定为正标签,若锚段与所有的真实行为片段的交并比均低于0.3,则将该锚段标记为负样本;
只采用正样本和负样本对候选区域提案子网络进行训练;
对分类子网络进行训练包括:
为每个候选区域分配行为类别标签:如果某候选区域与某真实行为片段具有最高交并比,同时交并比大于0.5,则给该候选区域标定为对应的行为类别标签,若某候选区域与所有真实的行为片段交并比都低于0.5,则将被标定为负标签;
采用分配行为类别标签后的候选区域对分类子网络进行训练。


3.根据权利要求2所述的多尺度时序行为识别方法,其特征在于,对候选区域提案子网络进行训练时,所述正样本和所述负样本的数量比为1:1。


4.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图包括:
对输入的视频帧提取时空特征;
使用conv1a到conv5b形成了自下而上的途径;
设定在时间尺度上相同的特征图为同一个金字塔级别的特征图;
通过自上而下的通道和横向连接通道构建特征金字塔结构,生成多级特征图。


5.根据权利要求4所述的多尺度时序行为识别方法,其特征在于,所述自上而下的通...

【专利技术属性】
技术研发人员:雷军张军李硕豪何嘉宇王风雷周浩
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1