单阶段的视频行为检测方法技术

技术编号:19426310 阅读:15 留言:0更新日期:2018-11-14 10:47
本发明专利技术公开了一种单阶段的视频行为检测方法,其包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。该方法可以提高检测性能与检测效率。

【技术实现步骤摘要】
单阶段的视频行为检测方法
本专利技术涉及视频行为检测
,尤其涉及一种单阶段的视频行为检测方法。
技术介绍
近年来,视频拍摄设备(例如:智能手机、数码相机、监控摄像头等)飞速普及,使人们可以便捷的拍摄视频,现代通信设备使视频的获取和传播越来越便捷,视频已经成为现代社会中重要的信息载体。随着计算机智能化需求的不断增长以及模式识别技术、图像处理技术和人工智能技术的快速发展,使用计算机视觉技术对视频内容进行分析有着巨大的实际需求和很高的商业价值。而人类活动往往是视频中的信息主体,对视频中的人类行为进行检测对于视频理解具有重大的意义。视频人类行为检测任务是在未分割的长视频中,检测出视频中包含的每个人类行为实例的类别同时定位出每个行为实例发生的时间。由于绝大多数监控视频和网络视频均为未分割的长视频,在长视频中做检测更加符合实际需求。随着深度学习技术的发展,视频行为检测领域取得了一些研究成果。然而,视频行为检测领域仍处于发展起步阶段,当前的视频行为检测方法往往不够成熟,普遍存在模型过于复杂、计算成本过高、行为定位精确度低等问题。为满足实际应用的需求,急需提出新的视频行为检测框架和方法。目前针对视频行为检测任务的研究不多,提出的方法通常遵循多阶段的检测框架:在第一个阶段,使用提名技术(proposal)在视频中产生高召回率的候选时间窗口,或者使用额外的特征提取技术产生有区分度的行为特征;在下一个阶段,对这些候选时间窗口或行为特征进行分类得到行为类别的预测。专利《一种基于卷积神经网络的动作检测模型》中使用了一种两阶段的方法,首先使用FasterRCNN网络在视频帧和光流图上生成兴趣窗口提名并提取行为特征,然后使用独立的SVM分类器对行为特征进行分类。在专利《一种基于卷积神经网络的视频动作检测方法》中,第一阶段使用密集的多尺度滑动窗口对未剪切视频进行分割,并使用带有时空金字塔层的卷积神经网络对每个窗口进行识别,然后在下一阶段中对各个窗口的识别结果进行筛选和整合得到最终的视频检测片段。论文《TemporalActionLocalizationinUntrimmedVideosviaMulti-stageCNNs》中提出了一种基于分段三维卷积神经网络的行为检测方法,首先使用一个三维卷积神经网络基于滑动窗口生成行为实例提名,然后使用另外一个三维卷积神经网络对提名进行分类。论文《CascadedBoundaryRegressionforTemporalActionDetection》采用了一种两阶段的行为检测框架,对行为的时间边界进行回归操作进一步完善滑动窗口提名的时间边界。论文《SingleShotTemporalActionDetection》中提出了一种用于行为检测的单通道行为分类器,他们采用独立的双流神经网络(two-streamConvNets)进行外观特征和运动特征的提取。然而,上述多阶段的方法将特征提取、滑动窗口提名和行为分类视作独立的处理阶段,各个阶段不能联合训练,不利于行为检测模型的协同配合与联合优化;同时,在不同阶段中存在大量的重复计算,影响了算法的计算效率。
技术实现思路
本专利技术的目的是提供一种单阶段的视频行为检测方法,可以提高检测性能与检测效率。本专利技术的目的是通过以下技术方案实现的:一种单阶段的视频行为检测方法,包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。由上述本专利技术提供的技术方案可以看出,首先,所构建的多尺度行为片段回归网络完全消除了传统行为检测方法中的时序提名阶段和额外的特征提取阶段,在单个卷积神经网络中完成了在未修剪长视频中行为实例检测的所有计算,在整体上可以端到端的联合训练和优化,从而达到了更高的检测性能;其次,简化了网络结构,使绝大部分计算可并行实现,大幅提高了行为检测的效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种单阶段的视频行为检测方法的流程图;图2为本专利技术实施例提供的视频中行为检测过程示意图;图3为本专利技术实施例提供的多尺度行为片段回归网络总体结构示意图;图4为本专利技术实施例提供的THUMOS’14数据集输出结果示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。为了解决现有视频行为检测方法结构复杂、检测精度低、处理速度慢等问题,本专利技术实施例提供一种单阶段的视频行为检测方法;首先,为了提高计算效率,本专利技术方法将所有计算封装到一个网络中,在一个单阶段的卷积神经网络中完成行为检测任务。其次,为了提高行为检测精度,本专利技术方法在多尺度的网络特征图上利用多尺度位置回归灵活地检测各种时间长度的人类行为,并输出视频帧级别的行为时间边界和行为类别。最后,为了使网络各个部分能联合优化,本专利技术方法在单个网络中处理输入视频,使整个网络可以端到端的训练。如图1所示,为本专利技术实施例提供一种单阶段的视频行为检测方法的流程图,其主要包括:1、在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型。本专利技术实施例中,使用一个单阶段的卷积神经网络完成行为检测任务,并将不同尺度的网络特征图与不同时间长度的锚定行为实例联系起来,使网络能够灵活地检测各种时间长度的人类行为。主要分为如下几个部分:1)基于卷积神经网络构建多尺度行为片段回归网络。本专利技术实施例中,所构建的多尺度行为片段回归网络包括:基础泛化模块、行为实例锚定模块和行为预测模块;其中:a、所述基础泛化模块,包含交替设置的N1(如:N1=5)层三维卷积层(3Dconvolutionlayer)和N2(如:N2=5)层三维最大值池化层(3Dmax-poolinglayer),用于对输入的视频序列进行特征泛化,并扩大感受野。b、所述行为实例锚定模块,采用N3(如:N3=4)层时间维度上的步幅为s1(如:s1=2),空间维度上的步幅(stride)为s2(如:s2=1)的三维卷积网络,用于为本模块每一个三维卷积层输出的锚定特征图的每个单元格关联不同时间长度的锚定行为实例。本专利技术实施例中,所述行为实例锚定模块中,为每个锚定特征图定义一个基础时间刻度sk,k∈[1,N3];sk规范地分布于值域[0,1]中;为每个锚定特征图本文档来自技高网
...

【技术保护点】
1.一种单阶段的视频行为检测方法,其特征在于,包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。

【技术特征摘要】
1.一种单阶段的视频行为检测方法,其特征在于,包括:在训练阶段,基于卷积神经网络构建多尺度行为片段回归网络;将训练视频和帧级真实行为标签作为输入,使用多任务学习的端到端优化方法训练多尺度行为片段回归网络,获得训练好的多尺度行为片段回归网络模型;在使用阶段,当新视频输入时,通过时间维度滑窗生成与训练视频具有相同长度的输入帧序列,使用训练好的多尺度行为片段回归网络模型,预测输入帧序列的行为类别和对应的时间位置;再使用非极大值抑制对预测结果进行处理,产生最终的行为检测结果。2.根据权利要求1所述的一种单阶段的视频行为检测方法,其特征在于,所构建的多尺度行为片段回归网络包括:基础泛化模块、行为实例锚定模块和行为预测模块;其中:所述基础泛化模块,包含交替设置的N1层三维卷积层和N2层三维最大值池化层,用于对输入的视频序列进行特征泛化,并扩大感受野;所述行为实例锚定模块,采用N3层时间维度上的步幅为s1,空间维度上的步幅为s2的三维卷积网络,用于为本模块每一个三维卷积层输出的锚定特征图的每个单元格关联不同时间长度的锚定行为实例;所述行为预测模块,用于对锚定特征图的每个单元格使用Dk·(m+2)个尺寸为h×w×3的卷积核进行卷积,输出相应单元格对应的Dk个锚定行为实例对m个行为类别的预测得分和两个时间位置偏移量;其中,h、w对应的表示锚定特征图的高、宽。3.根据权利要求2所述的一种单阶段的视频行为检测方法,其特征在于,所述行为实例锚定模块中,为每个锚定特征图定义一个基础时间刻度sk,k∈[1,N3];为每个锚定特征图定义一组刻度比率Dk是刻度比率的个数;每个锚定特征图的大小表示为h×w×t,t表示锚定特征图的长,则锚定特征图的每一个尺寸为h×w×3的单元格关联Dk个锚定行为实例,行为实例的时间长度为ld=sk·rd,d∈[1,Dk],中心位置为单元格中心。4.根据权利要求2所述的一种单阶...

【专利技术属性】
技术研发人员:王子磊刘志康
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1