基于深度学习及运动一致性的街面秩序事件视频检测方法技术

技术编号:18497864 阅读:19 留言:0更新日期:2018-07-21 20:32
基于深度学习及运动一致性的街面秩序事件视频检测方法,涉及人工智能领域和计算机视觉领域。本发明专利技术的方法步骤为:1)算法框架:2)目标检测;3)运动一致性计算;4)事件判定。同现有技术相比,本发明专利技术通过设计目标检测深度学习网络,训练场景识别模型,并计算场景内的运动信息分析其行为状态,以视频智能分析领域中静态视频帧中目标检测技术和动态视频中目标行为分析技术相结合的方式,多条件联合判定事件,设计出店外经营事件和占道经营事件的检测系统,准确快速的完成事件的自动检测。

Video detection method for street order events based on deep learning and motion consistency

A video detection method for street order events based on deep learning and motion consistency relates to the field of artificial intelligence and computer vision. The method steps of the invention are: 1) algorithm framework: 2) target detection; 3) motion consistency calculation; 4) event determination. Compared with the existing technology, the invention aims to detect the depth learning network, train the scene recognition model and calculate the motion information in the scene, and analyze the behavior state of the scene, and combine the target detection technology in the static video frame and the target line in the dynamic video as the analysis technique in the video intelligence analysis field. A joint detection event is designed to detect the business events outside the store and the occupying business events, so that the automatic detection of events can be completed accurately and quickly.

【技术实现步骤摘要】
基于深度学习及运动一致性的街面秩序事件视频检测方法
本专利技术涉及人工智能领域和计算机视觉领域,是基于图像处理技术和视频分析技术的、应用于城市监控场景下的街面秩序事件智能检测方法。
技术介绍
文俊,在2016年3月的博士论文《基于深度卷积神经网络的室外场景理解研究》中公开了,基于DCNN算法,围绕场景分割和场景识别,研究了动态目标分类、语义分割和联合目标检测与语义分割的场景理解技术。首先针对视频中运动目标物体的分类,提出一种基于多任务空间金字塔池化DCNN的动态目标分类方法。高层卷积特征对运动目标的平移、视角变化、光照、部分遮挡等具有较强的鲁棒性。该方法利用高斯混合模型对背景建模由背景差分法提取场景运动目标,经图像形态学处理获得较为准确的目标物体轮廓图像。将获得的前景目标图像块送入多任务空间金字塔池化DCNN而实现分类。实验证明,该方法具有很高的分类精度。同时,针对DCNN理论分析的缺乏,细致地分析了多任务训练方式和空间金字塔池化层对DCNN的分类效果的影响。实验表明,多任务的特征学习方式有助于DCNN学习更加丰富的卷积特征,空间金字塔池化层增强了DCNN的尺度不变性,两者均有助于提高DCNN对动态目标的分类准确率。为了克服传统的颜色、纹理和SIFT局部特征描述子等鲁棒性和表达能力等的不足,提出了一种基于DCNN的室外场景语义分割算法。该算法首先由MeanShift算法对图像进行预分割,将场景图像分割为大小不一的局部区域。然后对每一个分割后的图像局部区域随机采集样本图像块送入DCNN以获得其类别概率分布。最后将样本图像块的类别概率值进行平均获得每一个局部区域的语义标签而实现对场景图像的语义分割。实验中分析了卷积核大小、数目和训练数据扩展等对最终语义分割效果的影响。将该方法与传统的基于SIFT局部特征描述子的SEVI-BOVW进行对比,实验表明,该方法在语义分割准确率和速度上均有较大提升。基于DCNN,提出了一种联合物体检测与语义分割的场景理解方法,并将其与基于HOG纹理特征及支持向量机分类算法的背景物体语义分割算法结合用于校园巡逻机器人的校园导航。由DeepLab-CRFs语义分割算法预分割出场景图像中的行人和车辆等前景目标物体,采用FasterR-CNN物体检测算法对前景物体中的单个物体进行区分,最后再通过GrabCut前景提取算法将二者的分割和检测结果结合实现对前景目标物体的精确再分割。对不具备具体形状且纹理结构单一的天空、道路、树木(草地)、建筑四类背景物体采用先超像素预分割在提取分割后各局部区域HOG纹理特征送入支持向量机分类器的方法进行语义分割。将上述场景理解及背景识别方法与视觉SLAM技术及路径规划算法结合应用于Seekur机器人的校园导航,取得了很好效果。李涛,在2016年3月的博士论文《基于上下文的目标检测研究》中公开了,结合图像处理、模式识别、机器学习等理论与方法,利用目标自身局部上下文信息、目标及目标层面以上的上下文信息、时空上下文信息和基于高层图像表达的上下文信息四个方面,针对目标检测领域中的诸多实际问题,展开对基于上下文信息的目标检测的研究。(1)基于目标自身局部上下文信息,提出了基于霍夫上下文的目标检测模型。首先,为了有效的表达和组织局部特征,对图像中的每个像素点,完成了基于极坐标的椭圆霍夫上下文的建立;然后,利用霍夫上下文的特点,完成了在同一尺度下单独特征和联合特征的刻画和提取;接着,在两类特征提取的基础上,基于霍夫投票的思想,完成了包括独立函数和联合函数的像素点投票函数,并通过训练完成了模型相关参数的学习;最后,在检测中,通过对该模型获得的霍夫图像的后处理,利用目标尺度信息完成目标检测;通过在不同数据集上的大量实验,验证了该模型的有效性。(2)基于目标及目标层面以上的上下文信息,提出了基于上下文信息的多层目标检测模型。首先,基于混合专家,采用分而治之的思想,完成了场景选择层的构建,并利用与子场景聚类中心的距离,完成了刻画场景选择层的混合权重;然后,在不同场景下,基于目标间一致性关系的描述,完成了一致性目标对的刻画;接着,在子树形成时,利用一致性目标对和单一目标间的共生和位置关系,改变树形结构,完成了子场景下相应的子树模型的生成,并通过训练完成了模型相关参数的学习;最后,在检测中,利用该模型进行相关推理,消除和修正了错误的单一目标检测器的检测结果,完成目标检测;通过在不同数据集上的大量实验,验证了该模型的有效性。(3)基于时空上下文信息,提出了基于时空域的层次火焰检测模型和基于团块分析的人数统计模型。针对火焰模型,首先,利用光流获取火焰方向在时空域的变化,在多个层面上,融入时空上下文信息,完成了新的火焰运动特征的刻画;然后,在获取火焰特征的基础上,利用KernelSVM训练,完成火焰检测模型的建立;通过实验,验证了火焰模型的有效性。针对人数统计模型,首先,利用光流获取团块运动的光流强度信息并与团块面积等上下文信息结合,完成新的团块特征的刻画;然后,利用时空上下文信息,结合人数统计的特点,完成了一种新的跟踪算法;最后,利用SVM进行线性拟合,通过训练完成人数统计模型的建立;通过实验,验证了人数统计模型的有效性。(4)基于高层图像表达上下文信息,提出了基于自适应上下文信息的CNN目标检测模型。首先,基于卷积神经网络学习的高层图像表达,完成在特定场景中目标及其上下文特征图的提取,并根据同一尺度下,特征图差异,完成自适应的上下文特征选择模型的建立;然后,基于上下文特征选择模型,融合目标和上下文特征,完成基于自适应上下文信息的CNN目标检测模型的建立,并通过前向和后向算法,训练完成了模型相关参数的学习;最后,在检测中,利用训练好的目标检测模型,获得目标掩码图和上下文掩码图,联合预测目标位置,通过后处理,完成目标检测;通过在不同数据集上的大量实验,验证了该模型的有效性。上述传统算法存在的问题是:在对城市监控场景的识别和理解方面,传统算法很难满足需求,主要原因是场景复杂度过高、事件形态多种多样、遮挡等。这些因素要求算法有超强的泛化能力和准确度,传统算法在理论基础上就达不到这些要求,即使应用了也很容易造成事件的误检和漏检。上述基于深度学习的算法存在的问题是:基于深度学习算法,可以设计出泛化能力很强的方法来解决事件形态多种多样的问题,但对网络模型的设计也有很高的要求。并且,一般的深度学习算法,大多是在静态图像集中标定训练样本,获取事件图像的静态特征,但监控场景下的事件,含有大量的时序动态信息,并且部分事件的主要特征也是体现在其动态信息上,因此,单纯的依赖深度学习算法,即使可以设计出泛化能力很强的网络模型,也面临着大量事件的漏检问题。综上所述,现有技术中无论是应用传统算法还是深度学习算法,视角变化、光照、部分遮挡等因素都是影响目标检测和场景识别算法性能的重要因素,在实际应用中,这些因素造成的漏检和误检会严重影响产品的整体性能。上述方法中应用静态图像作为训练样本,提取其图像静态特征进行检测和识别,但在实际监控场景传回的是连续的视频帧,这些视频中的动态信息比单张静态图像所包含的信息更加丰富,而且像视角变化、遮挡等物理现象也是在运动过程中产生的。因此,单纯的应用图像帧的静态信息在目标检本文档来自技高网...

【技术保护点】
1.基于深度学习及运动一致性的街面秩序事件视频检测方法,其方法步骤为:1)算法框架:算法框架:设定为轮询模式,循环接入前端视频流,采集N帧后缓存到指定内存中,然后切换到下一路视频流,缓存到相应的内存空间中;内部算法功能模块线程需要处理时从相应内存中拷贝到算法内部缓存中,处理完成后将运行结果统一送到事件判定线程做事件最终判定,然后拷贝下一路视频流所在的内存数据,用同样的方式做处理;2)目标检测:在Yolov2训练过程中,首先利用设计好的分类网络结构在ImageNet数据集上进行预训练,其次,将该网络结构最后的分类输出层去掉,在最后一个卷积层产生的feature map上,每个单元都会结合anchor信息生成一个向量,其中包括了类别输出信息、回归的坐标信息以及是否为目标的概率,之后设计loss函数并对其进行优化,最后完成模型的训练,loss函数由分类loss1、回归坐标以及是否为前景目标loss2构成,类别loss1同传统分类网络,采用softmax对其进行训练,回归坐标和是否前景目标loss2定义如下:

【技术特征摘要】
1.基于深度学习及运动一致性的街面秩序事件视频检测方法,其方法步骤为:1)算法框架:算法框架:设定为轮询模式,循环接入前端视频流,采集N帧后缓存到指定内存中,然后切换到下一路视频流,缓存到相应的内存空间中;内部算法功能模块线程需要处理时从相应内存中拷贝到算法内部缓存中,处理完成后将运行结果统一送到事件判定线程做事件最终判定,然后拷贝下一路视频流所在的内存数据,用同样的方式做处理;2)目标检测:在Yolov2训练过程中,首先利用设计好的分类网络结构在ImageNet数据集上进行预训练,其次,将该网络结构最后的分类输出层去掉,在最后一个卷积层产生的featuremap上,每个单元都会结合anchor信息生成一个向量,其中包括了类别输出信息、回归的坐标信息以及是否为目标的概率,之后设计loss函数并对其进行优化,最后完成模型的训练,loss函数由分类loss1、回归坐标以及是否为前景目标loss2构成,类别loss1同传统分类网络,采用softmax对其进行训练,回归坐标和是否前景目标loss2定义如下:其中,i指示当前计算单元,j指示当前anchor,x、y表示预测的坐标,w、h表示预测的宽、高,Pw和Ph分别表示anchor宽、高;检测时,输入一帧图像,图像经过一系列卷积、批归一化、池化、非线性映射等操作后,在最后一个卷积层得到多个featuremap;将最后一个卷积层得到的featuremap结合anchor信息,在每个单元预测5个边界框,每个边界框预测4个坐标值和一个目标概率值,若单元从图像的左上角偏移(cx,cy),且边界框有先验Pw,Ph(anchorbox),则预测为:bx=σ(tx)+cxby=σ(ty)+cybw=pwetwbh=pheth其中,σ(.)为非线性映射函数:不同于fasterrcnn框架中使用的固定大小的anchorbox,Yolov2中为了充分利用样本的统计特性,采用聚类的方式选取了5个anchorbox;训练集边界框上用K-means聚类来自动找好的先验:用标准K-means(欧...

【专利技术属性】
技术研发人员:郑全新张磊赵英江龙王亚涛
申请(专利权)人:北京同方软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1