一种基于双通道卷积神经网络的视频在线行为检测方法技术

技术编号:20546560 阅读:24 留言:0更新日期:2019-03-09 19:28
本发明专利技术公开了一种基于双通道卷积神经网络的视频在线行为检测方法。首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。本发明专利技术通过设计轻量双卷积核SSD网络,大幅度简化了深度学习网络,提高了行为检测效率。

An Online Video Behavior Detection Method Based on Two-Channel Convolutional Neural Network

The invention discloses a video online behavior detection method based on dual channel convolution neural network. Firstly, the input RGB image is transformed by the optical flow image sequence generation module to get the optical flow graph; secondly, the obtained optical flow graph and the original RGB image are input into two identical Lightweight Double convolution core SSD networks through two channels, and the temporal and spatial features, detection frame and confidence score of the two images are extracted respectively; secondly, the two images are generated by the fusion module. The detection frame and confidence score are fused to form a picture with detection frame and confidence score. Finally, the picture with detection frame and confidence score is input into the online action pipeline, and the final behavior detection result is given from the perspective of video. The invention greatly simplifies the deep learning network and improves the efficiency of behavior detection by designing a lightweight double convolution core SSD network.

【技术实现步骤摘要】
一种基于双通道卷积神经网络的视频在线行为检测方法
本专利技术属于计算机视觉领域,特别涉及了一种基于双通道卷积神经网络的视频在线行为检测方法。
技术介绍
智能视频分析是目前计算机视觉领域非常热门,也是极具挑战力的一个方向,可以被应用在很多场景下。智能视频分析方向包含众多的子研究方向,其中主要的两个研究方向为行为识别和行为检测。行为识别类似于图像的分类,主要解决“视频中的行为是什么”的问题,给出一段只包含一个行为动作的修剪视频,要求给视频分类。而行为检测(或定位)与目标检测一致,主要解决“视频中是否有相应的行为发生,如果有,则发生在视频帧序列的哪一段和在每一帧的什么位置”的问题,这主要分两步完成,一是类似于目标检测中的候选区域提取,这步主要是从视频中找出可能含有动作的视频段;二是对该视频段进行分类。行为分类研究在深度学习出现之前,表现最好的算法是iDT算法,其思路是利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4中的特征,其中HOF是基于灰度图计算,另外几个均基于密集光流计算。再利用FisherVector方法对特征进行编码。最后基于编码训练结果训练SVM,随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习出来后,实现了从特征提取到分类的端到端解决方案。DuTran等人在二维的卷积核中引入时间维度,用三维的卷积核处理视频,实现端到端的训练。网络结构简单且速度快。因为视频除了空间维度外,最大的难点在于时间序列问题,基于RNN网络能很好处理序列问题,DuWenbin等人提出的基于RNN的网络算法引入姿态监督的机制,提高了视频分类的效果。行为检测任务因为更贴近生活,在监控安防中有巨大的潜在价值。行为检测中最大的问题在于如何定位存在行为动作的视频段,过去的行为检测方法多采用滑动窗口法,然而基于滑动窗口法的动作定位非常耗时,时间效率低。
技术实现思路
为了解决上述
技术介绍
提出的技术问题,本专利技术旨在提供一种基于双通道卷积神经网络的视频在线行为检测方法。为了实现上述技术目的,本专利技术的技术方案为:一种基于双通道卷积神经网络的视频在线行为检测方法,首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。进一步地,所述光流图片序列生成模块生成的光流图与原RGB图的大小相等。进一步地,所述轻量双卷积核SSD网络是通过将轻量双卷积核网络作为SSD的基网络而形成的;所述轻量双卷积核网络包含深度可分离卷积和两个模型收缩超参数:宽度乘法器α和分辨率乘法器ρ;所述深度可分离卷积将标准卷积分解成深度卷积和逐点卷积,深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到输出;所述宽度乘法器α∈(0,1],通过宽度乘法器α将某一层的输入通道数M和输出通道数N改变为αM和αN,实现网络的薄化;所述分辨率乘法器ρ∈(0,1],通过设置分辨率乘法器ρ来调节输入分辨率的大小,实现网络的薄化。进一步地,通过融合模块融合两种图片生成的检测框和置信分值的具体过程:当光流图的检测框与RGB图的检测框具有最大面积重叠值,且该重叠值大于设定的阈值时,通过下式得到最终的融合结果:上式中,为最终的融合结果,为的置信分值,为两个检测框的交集与并集的比值。进一步地,所述在线动作管道中,设Tic为特定类别i的管道片,nc(t)为每次帧图进来后的管道片数,t为帧图,T为所有帧图数;当t=1时,nc(t)=1;当t=T-1时,根据置信分值倒序排列从第1帧到第T-1帧的管道片Tic;当t=T时,找出T帧的所有检测框中与最后一个管道片Tic的重叠度大于所设阈值的检测框,并将这些检测框中置信分值最高的检测框作为管道片输出;当经过k帧图片没有管道片输出,则终止管道,输出终止管道为最终动作管道,其相应的得分值即为视频的最终行为检测结果。采用上述技术方案带来的有益效果:本专利技术通过运用基于深度学习卷积神经网络方法的高效双卷积核小模型和经典目标检测模型SSD联合得到的轻量双卷积核SSD网络,大幅度简化了深度学习网络,提高了行为检测效率。因此,本专利技术可应用于如检测出有人翻墙触发报警系统等安防场景,或察觉并记录运动员等犯规操作等体育竞技场景,或车辆行为异常检测抓拍等交通管理场景中的硬件平台上。附图说明图1是本专利技术的流程图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。本专利技术提出了基于双通道卷积神经网络的视频在线行为检测方法,如图1所示,包括4个部分,即光流图序列生成模块,轻量双卷积核SSD网络,Fusion模块以及在线动作管道。首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。第一部分:光流图片序列生成模块。光流图片序列生成模块的核心算法是光流法。在空间中,运动可以用运动场描述。而在一个图像平面上,物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的。空间中的运动场转移到图像上就表示为光流场,光流场反映了图像上每一点灰度的变化趋势。光流可以看作像素点在图像平面运动产生的瞬时速度场。光流场是图片中每个像素都有一个X方向和Y方向的位移,所以在光流计算结束后得到的光流是个和原来图像大小相等的双通道图像。第二部分:轻量双卷积核SSD网络。SSD是对图像目标进行检测并实现端到端的分类和检测结果输出。SSD的实现主要是将特征图分成多个网格,每个网格按照不同的尺寸比生成多个默认检测框,默认检测框在后续的训练中会不断调整至与目标框标签损失尽可能小的位置,并在之后通过极大值抑制算法删除多余的检测框,获得最终的网格检测框。并通过对尺度大小不同特征图层进行检测和分类,最后综合这几层的结果输出最终的检测和分类结果。SSD的基网络是VGG-16网络,该网络包含16层卷积层,5层池化层和3层全连接层,网络结构深,网络参数和计算量大。而本专利技术用轻量双卷积核网络替代VGG-16作为SSD的基网络形成轻量双卷积核网络,可以减少大量的计算和参数,有利于实现移动端和嵌入式视觉的应用。轻量双卷积核网络基于一种流线型结构使用深度可分离卷积来构造轻型权重深度神经网络,包含了深度可分离卷积网络结构和两个模型收缩超参数,即宽度乘法器和分辨率乘法器。深度可分离卷积是一种将标准卷积分解成深度卷积以及一个1x1的卷积即逐点卷积。深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到输出。为本文档来自技高网
...

【技术保护点】
1.一种基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。

【技术特征摘要】
1.一种基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。2.根据权利要求1所述基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,所述光流图片序列生成模块生成的光流图与原RGB图的大小相等。3.根据权利要求1所述基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,所述轻量双卷积核SSD网络是通过将轻量双卷积核网络作为SSD的基网络而形成的;所述轻量双卷积核网络包含深度可分离卷积和两个模型收缩超参数:宽度乘法器α和分辨率乘法器ρ;所述深度可分离卷积将标准卷积分解成深度卷积和逐点卷积,深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到输出;所述宽度乘法器α∈(0,1],...

【专利技术属性】
技术研发人员:陆生礼庞伟向丽苹范雪梅舒程昊梁彪
申请(专利权)人:东南大学无锡集成电路技术研究所东南大学南京三宝科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1