一种基于时空上下文分析的在线视频行为检测系统及其方法技术方案

技术编号:20486309 阅读:37 留言:0更新日期:2019-03-02 19:33
一种基于时空上下文分析的在线视频行为检测方法,该方法采用深度学习框架并结合时空上下文分析技术实现了输入视频中发生行为的在线检测,且该检测是在时间域和空间域联合进行的。本发明专利技术包括两个部分:视频片段内的行为检测和视频片段间的链接。在视频片段内算法利用编码‑解码模型,结合当前帧和时空动态信息,产生候选动作区域;视频片段间链接把候选动作区域链接成行为链,该链持续关注指定的动作对象,从它出现直到结束,同时以在线的方式预测出行为的类别。

【技术实现步骤摘要】
一种基于时空上下文分析的在线视频行为检测系统及其方法
本专利技术涉及视频行为分析
,具体涉及到一种基于时空上下文分析的在线视频行为检测系统及其方法,该方法采用深度学习框架并结合时空上下文分析技术实现了输入视频中发生行为的在线检测,且该检测是在时间域和空间域联合进行的。
技术介绍
视频行为检测不仅要对给定视频中出现的行为进行正确地分类,还要对行为进行时间域和空间域上的定位,是视频人类行为理解研究中的关键一步。简单地说,目前存在的方法通常采用一个二步处理的程序来解决这个问题:用经过重新训练的动作检测器产生单帧的动作检测结果,包括经过回归的物体框和相应的动作分类得分;通过在整个视频持续时间内连接或者追踪单帧的动作检测结果形成最终的时空动作链,通常这些连接或者追踪是在一些约束条件下进行的,比如:要求相邻帧的动作检测框重叠区域要尽可能的大。这种处理的局限性主要体现在两个方面:1)它仅仅利用当前的图像或者运动信息进行单帧的行为检测,而忽略了动作行为在时间上的连续性;2)连接算法通常用一种离线和批处理的方式进行,也即:动作链从视频的开始一直被延续到视频结尾,再用另外的时间域剪枝算法来消除虚假的检测结果。在本专利技术中,通过以下途径解决上述两个问题:1)联合当前帧和时空下上文信息进行动作检测;2)采用在线检测的方式,在一次处理中完成行为链生成和行为分类预测。2017年,Zhu等人(ZhuH.,VialR.,andLuS.2017.“ASpatio-temporalConvolutionalRegressionNetworkforVideoActionProposal”,IEEEInternationalConferenceonComputerVision,pp.5814-5822)提出了一种回归网络模型用于产生动作行为提议,该模型以ConvLSTM(ConvolutionalLongShort-TermMemory)为基础进行构建,融合了时空动态信息和当前帧信息进行动作检测。这种方法的缺陷在于在一小段视频内,通常只有位置靠后的视频帧能利用到时空动态信息辅助当前的检测。
技术实现思路
本专利技术的目的是提供一种基于时空上下文分析的在线视频行为检测系统,使得对当前帧的动作行为进行检测时可以利用视频序列上下文信息,同时随着视频帧的不断输入可以增量式地产生行为链,并对视频行为进行动态地分类。本专利技术的另一目的是提供一种基于时空上下文分析的在线视频行为检测方法。本专利技术提出的方法和与现有方法相比有两点主要的改进:1)本专利技术的方法基于ConvGRU(ConvolutionalGatedRecurrentUnit),相比于ConvLSTM,它是一种轻量级的循环记忆模型,具有少得多的参数,在小样本数量集上减少了过拟合的风险;2)他们的模型是单一的前向模型,因此只有位于输入视频序列后端的视频帧做行为检测时才能利用融合的时空动态信息,而本专利技术提出的方法是一种编码-解码模型,视频序列的时空上下文信息在解码时可以在每一帧都被使用到。本专利技术的原理是:1)利用深度卷积神经网络提取单帧视频特征,将连续若干帧视频特征输入到ConvGRU构建编码-解码的视频序列描述模型,在前向传递中行为时空上下文信息被编码,在后向传递中编码的时空动态信息被解码到每一帧,结合当前帧信息完成动作检测;2)维持一个动态的行为类别候选池,随着输入视频序列的不断增长,逐渐缩小可能的行为类别范围,同时对当前生成的行为链进行动态地修剪,包括:增长、终止和时间域修剪。本专利技术提供的技术方案如下:本专利技术提出的时间-空间域行为检测方法包括两个部分:视频片段内的行为检测和视频片段间的链接。在视频片段内算法利用编码-解码模型,结合当前帧和时空动态信息,产生候选动作区域;视频片段间链接把候选动作区域链接成行为链,该链持续关注指定的动作对象,从它出现直到结束,同时以在线的方式预测出行为的类别。一种基于时空上下文分析的在线视频行为检测系统,包括视频行为时空上下文信息融合网络和运动框在线链接和分类算法;其中:所述视频行为时空上下文信息融合网络,用于将当前帧信息和一个视频片段内行为时空上下文信息进行融合;所述运动框在线链接和分类算法,用于以在线的方式把对应于同一运动目标的运动框链接起来,形成一条完整的行为链,并对其行为类别进行分类。所述视频行为时空上下文信息融合网络具体包括:单帧特征提取网络,用于提取视频片段内当前帧RGB图像和光流图像深度表述特征;视频片段时空上下文信息融合网络,构建基于ConvGRU模型的编码-解码模块用于提取视频片段时空上下文表述特征,并使之与视频当前帧特征进行融合,得到融合特征;行为检测网络,用于在融合特征上进行单帧行为检测,得到行为分类得分和对行为发生的位置进行定位,产生运动框。所述运动框在线链接和分类算法具体包括:构建行为类别侯选池,用于维持对于给定视频当前最有可能出现的指定数目的行为类别;行为类别候选池更新算法,用于对行为类别进行打分,逐渐缩小当前视频可能所属的行为类别范围,实现行为链在线快速分类;行为链在线增长算法,用于将视频片段对应的行为候选区域链接于已存在的行为链,实现行为链在线增长;或者将行为候选区域确定为新的行为链。一种基于时空上下文分析的在线视频行为检测方法,包括以下若干步骤:步骤1:对当前帧计算光流图像,提取RGB图像和光流图像的深度表述特征;步骤2:构建编码-解码网络提取视频行为时空上下文信息,并与当前帧信息进行融合,得到融合特征;步骤3:对融合特征进行分类和位置回归,产生运动框,用Viterbi算法对运动框进行链接,得到行为候选区域;步骤4:构建行为类别候选池,更新可能出现的行为类别;步骤5:把行为候选区域以在线的方式链接于已存在的行为链或者产生新的行为链;步骤6:把RGB图像分支和光流图像分支的检测结果进行融合,得到最终的检测结果。与现有的技术相比,本专利技术的有益效果是:利用本专利技术提供的技术方案,在对视频单帧图像进行行为检测时,利用了视频片段内行为时空上下文信息,提高了行为检测的准确率;同时可以对视频行为进行在线的检测,相比于以往离线的基于批处理方式的方法,提升了视频行为检测的及时性,可应用于对实时性要求比较高的场合,如智能机器人、人机交互系统等。同现有的视频行为检测技术相比,在目前流行的公开测试集上,本专利技术提供的技术在利用更少候选提议的情况下,取得了更好的检测效果。下面结合附图,通过实施例对本专利技术进一步说明:附图说明图1为本专利技术的流程图。图2为视频单元运动信息编码-解码器En-Decoder模型框架图。图3为基于时空上下文分析的视频行为单帧检测模型框架图。图4为视频行为链集合Td在线动态更新操作流程图。附图中:1—单帧图像表述特征p′i、2—ConVGRU单元、3—融合表述特征pd、4—视频单元所包含图像序列、5—特征提取网络、6—降维网络、7—RPN网络、8—DetectionNetwork、9—行为分类结果、10—位置调整量、11—运动提议得分、12—运动提议、13—时间域裁剪、14—计算行为得分、15—构建行为侯选池、16—构建候选集合Pt、17—更新行为链、18—增加新的行为链。具体实施方式本专利技术的一种基于时空上下文分析的在线视频行为检测方法,本文档来自技高网
...

【技术保护点】
1.一种基于时空上下文分析的在线视频行为检测系统,其特征在于,包括视频行为时空上下文信息融合网络和运动框在线链接和分类算法;其中:所述视频行为时空上下文信息融合网络,用于将当前帧信息和一个视频片段内行为时空上下文信息进行融合;所述运动框在线链接和分类算法,用于以在线的方式把对应于同一运动目标的运动框链接起来,形成一条完整的行为链,并对其行为类别进行分类。

【技术特征摘要】
1.一种基于时空上下文分析的在线视频行为检测系统,其特征在于,包括视频行为时空上下文信息融合网络和运动框在线链接和分类算法;其中:所述视频行为时空上下文信息融合网络,用于将当前帧信息和一个视频片段内行为时空上下文信息进行融合;所述运动框在线链接和分类算法,用于以在线的方式把对应于同一运动目标的运动框链接起来,形成一条完整的行为链,并对其行为类别进行分类。2.根据权利要求1所述的基于时空上下文分析的在线视频行为检测系统,其特征是,所述视频行为时空上下文信息融合网络具体包括:单帧特征提取网络,用于提取视频片段内当前帧RGB图像和光流图像深度表述特征;视频片段时空上下文信息融合网络,构建基于ConvGRU模型的编码-解码模块用于提取视频片段时空上下文表述特征,并使之与视频当前帧特征进行融合,得到融合特征。具体即为:ConvGRU模型接收单帧图像表述特征,通过前向传播过程得到视频片段内运动序列表征;再通过后向传播过程得到时空上下文信息和当前帧信息的融合特征;行为检测网络,用于在融合特征上进行单帧行为检测,得到行为分类得分和对行为发生的位置进行定位,产生运动框。3.根据权利要求1所述的基于时空上下文分析的在线视频行为检测系统,其特征是,所述运动框在线链接和分类算法具体包括:构建行为类别侯选池,用于维持对于给定视频当前最有可能出现的指定数目的行为类别;行为类别候选池更新算法,用于对行为类别进行打分,逐渐缩小当前视频可能所属的行为类别范围,实现行为链在线快速分类;行为链在线增长算法,用于将视频片段对应的行为候选区域链接于已存在的行为链,实现行为链在线增长;或者将行为候选区域确定为新的行为链。4.一种基于时空上下文分析的在线视频行为检测方法,是基于权利要求1-3任意一项检测系统,对在线视频行为检测,其特征在于,包括以下步骤:步骤1:对当前帧计算光流图像,提取RGB图像和光流图像的深度表述特征,具体即为在VGG16网络结构conv5层上构建另外的卷积网...

【专利技术属性】
技术研发人员:李楠楠张世雄张子尧李革安欣赏张伟民
申请(专利权)人:深圳龙岗智能视听研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1