【技术实现步骤摘要】
一种多尺度时序行为识别方法
本专利技术涉及视觉识别
,特别是指一种多尺度时序行为识别方法。
技术介绍
时序行为识别(Temporalactiondetection)是视觉内容理解中的一项要任务,旨在从未修剪的视频中检测人类行为片段,将该片段分类为几种行为类别之一,并精确地预测其开始和结束时间点。与视频理解中的其他任务(例如行为识别或时序行为提案)相比,它绝对更具挑战性,但更加实用。在现实生活中,大多数需要检测的视频都是具有多个不同行为段的未修剪的长时视频。例如,我们可能需要通过实时检测监视视频来监视监狱中囚犯的行为,或者我们需要在视频网站中过滤带有少儿不宜内容的视频。这些视频持续时间很长,而且总是包含复杂的行为片段;在行为识别领域,先前的方法着眼于视频中人类行为的特征。例如,改进的密集轨迹(iDT)使用手工的特征和光流特征,这取得较好的效果。后来,许多研究人员尝试通过使用深度神经网络来解决此问题。受二维的卷积网络的启发,有研究中提出了三维卷积网络(C3D)来同时学习空间和时间特征。该网络具有结构简单,时空特征良好结合的优点,但如今,由于视频中人类行为的模糊性和复杂性,时序行为识别的准确率仍处在较低的水平。视频中的行为片段时间跨度通常在几秒到几十秒之间,而大多数现有方法在检测大范围时间尺度上的短时行为片段时都无法取得良好的效果。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种多尺度时序行为识别方法,提高检测大范围时间尺度上的短时行为片段时的效果。基于上述目的本专利技术提供 ...
【技术保护点】
1.一种多尺度时序行为识别方法,其特征在于,所述方法包括:/n建立三维卷积特征金字塔网络模型,所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;/n对所述三维卷积特征金字塔网络模型进行训练;/n所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;/n候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域;/n分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。/n
【技术特征摘要】
1.一种多尺度时序行为识别方法,其特征在于,所述方法包括:
建立三维卷积特征金字塔网络模型,所述三维卷积特征金字塔网络模型包括:三维卷积特征金字塔结构、候选区域提案子网络和分类子网络;
对所述三维卷积特征金字塔网络模型进行训练;
所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图;
候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域;
分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域,为其分配类别标签,并进一步精修候选区域的时间边界。
2.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练;
其中,对候选区域提案子网络进行训练包括:
将锚段标定为正/负样本:若锚段与某些真实行为片段有重叠,且交并比高于0.7,或与某些真实行为片段有最高的交并比,则将该锚段标定为正标签,若锚段与所有的真实行为片段的交并比均低于0.3,则将该锚段标记为负样本;
只采用正样本和负样本对候选区域提案子网络进行训练;
对分类子网络进行训练包括:
为每个候选区域分配行为类别标签:如果某候选区域与某真实行为片段具有最高交并比,同时交并比大于0.5,则给该候选区域标定为对应的行为类别标签,若某候选区域与所有真实的行为片段交并比都低于0.5,则将被标定为负标签;
采用分配行为类别标签后的候选区域对分类子网络进行训练。
3.根据权利要求2所述的多尺度时序行为识别方法,其特征在于,对候选区域提案子网络进行训练时,所述正样本和所述负样本的数量比为1:1。
4.根据权利要求1所述的多尺度时序行为识别方法,其特征在于,所述三维特征金字塔层次结构对输入的视频帧进行编码,并生成多级特征图包括:
对输入的视频帧提取时空特征;
使用conv1a到conv5b形成了自下而上的途径;
设定在时间尺度上相同的特征图为同一个金字塔级别的特征图;
通过自上而下的通道和横向连接通道构建特征金字塔结构,生成多级特征图。
5.根据权利要求4所述的多尺度时序行为识别方法,其特征在于,所述自上而下的通...
【专利技术属性】
技术研发人员:雷军,张军,李硕豪,何嘉宇,王风雷,周浩,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。