The invention discloses a video online behavior detection method based on dual channel convolution neural network. Firstly, the input RGB image is transformed by the optical flow image sequence generation module to get the optical flow graph; secondly, the obtained optical flow graph and the original RGB image are input into two identical Lightweight Double convolution core SSD networks through two channels, and the temporal and spatial features, detection frame and confidence score of the two images are extracted respectively; secondly, the two images are generated by the fusion module. The detection frame and confidence score are fused to form a picture with detection frame and confidence score. Finally, the picture with detection frame and confidence score is input into the online action pipeline, and the final behavior detection result is given from the perspective of video. The invention greatly simplifies the deep learning network and improves the efficiency of behavior detection by designing a lightweight double convolution core SSD network.
【技术实现步骤摘要】
一种基于双通道卷积神经网络的视频在线行为检测方法
本专利技术属于计算机视觉领域,特别涉及了一种基于双通道卷积神经网络的视频在线行为检测方法。
技术介绍
智能视频分析是目前计算机视觉领域非常热门,也是极具挑战力的一个方向,可以被应用在很多场景下。智能视频分析方向包含众多的子研究方向,其中主要的两个研究方向为行为识别和行为检测。行为识别类似于图像的分类,主要解决“视频中的行为是什么”的问题,给出一段只包含一个行为动作的修剪视频,要求给视频分类。而行为检测(或定位)与目标检测一致,主要解决“视频中是否有相应的行为发生,如果有,则发生在视频帧序列的哪一段和在每一帧的什么位置”的问题,这主要分两步完成,一是类似于目标检测中的候选区域提取,这步主要是从视频中找出可能含有动作的视频段;二是对该视频段进行分类。行为分类研究在深度学习出现之前,表现最好的算法是iDT算法,其思路是利用光流场来获得视频序列中的一些轨迹,再沿着轨迹提取HOF,HOG,MBH,trajectory4中的特征,其中HOF是基于灰度图计算,另外几个均基于密集光流计算。再利用FisherVector方法对特征进行编码。最后基于编码训练结果训练SVM,随机森林等传统的机器学习分类器方法进行分类和最终结果的输出。深度学习出来后,实现了从特征提取到分类的端到端解决方案。DuTran等人在二维的卷积核中引入时间维度,用三维的卷积核处理视频,实现端到端的训练。网络结构简单且速度快。因为视频除了空间维度外,最大的难点在于时间序列问题,基于RNN网络能很好处理序列问题,DuWenbin等人提出的基于RNN的网络算法引 ...
【技术保护点】
1.一种基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。
【技术特征摘要】
1.一种基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。2.根据权利要求1所述基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,所述光流图片序列生成模块生成的光流图与原RGB图的大小相等。3.根据权利要求1所述基于双通道卷积神经网络的视频在线行为检测方法,其特征在于,所述轻量双卷积核SSD网络是通过将轻量双卷积核网络作为SSD的基网络而形成的;所述轻量双卷积核网络包含深度可分离卷积和两个模型收缩超参数:宽度乘法器α和分辨率乘法器ρ;所述深度可分离卷积将标准卷积分解成深度卷积和逐点卷积,深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到输出;所述宽度乘法器α∈(0,1],...
【专利技术属性】
技术研发人员:陆生礼,庞伟,向丽苹,范雪梅,舒程昊,梁彪,
申请(专利权)人:东南大学无锡集成电路技术研究所,东南大学,南京三宝科技股份有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。