基于泛化多标记学习的监控视频多粒度标注方法技术

技术编号：16153731 阅读：34 留言：0更新日期：2017-09-06 18:44

本发明专利技术公开一种基于泛化多标记学习的监控视频多粒度标注方法，以公安视频监控内容分析为背景，从视频特征多层次获取和多粒度表示的理论和方法开展研究工作。首先，基于多标记学习理论和深度学习理论，分析和提取视频中各对象不同层次的特征，构建泛化的多标记分类算法；其次，基于粒计算理论和自然语言理解技术，表征出视频信息的多粒度表示模型。本发明专利技术是对监控视频内容分析领域进行深入系统的研究，通过深度学习理论构造泛化多标记学习算法，能够为多层次视频信息提取提供有效理论和方法；通过模拟人类认识和描述图像方法，建立多粒度视频表示理论和方法，为视频内容分析提供新思路。为未来推动视频监控智能化发展奠定理论和应用基础。

全部详细技术资料下载

【技术实现步骤摘要】
基于泛化多标记学习的监控视频多粒度标注方法
本专利技术属于计算机视觉领域，具体地说，涉及基于泛化多标记学习的监控视频多粒度标注方法。
技术介绍
随着视频监控技术的日益成熟和监控设备的不断普及，视频监控应用越来越广泛，监控视频数据量呈现出爆炸式的增长，已经成为大数据时代的重要数据对象。例如，遍布上海市的百万级监控探头每分钟产生TB级的视频数据，为实时掌握社会动态和保障公共安全提供了宝贵的视频资源。然而，由于视频数据本身的非结构化特性，使得其处理和分析相对困难。目前对视频数据的应用仍然主要以人工分析为主，辅以简单的智能化分析手段，存在“视频在、找不到”，“找得到、找太久”，“有服务、不可靠”等海量视频应用的瓶颈。同时，目前的视频监控系统还存在传输压力大、描述方法不统一等问题。这些问题严重制约了视频监控技术进一步发展和应用。因此，面对海量的监控视频大数据，如何实现高效的视频内容表示是视频监控应用亟待解决的关键问题。将视频信息转化为表征其内容的文本信息是解决上述问题的一个有效途径。基于该类方法进行视频表示的研究大多基于两类方法：1)视频内容标注：基于机器学习算法为视频中对象自动添加类别标记，用类别标记表示视频内容；2)视频内容理解：基于计算机视觉和自然语言理解技术，通过提取视频中对象的局部特征，形成对视频内容的自然语言描述。视频内容标注对视频的描述单一化，缺乏对对象特征和对象间关联性的描述；视频内容理解虽然可能包含更多的信息，但由于现实场景复杂多变，难以统一定义，目前只能在特定场景下取得一定的效果，还无法服务于实际应用。因此，这些问题的存在导致监控视频的智能化应用...
基于泛化多标记学习的监控视频多粒度标注方法

【技术保护点】
一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，首先，基于多标记学习理论和深度学习理论，提取出视频中不同对象不同层次的特征，构建泛化的多标记分类算法；其次，基于粒计算理论和自然语言理解技术，表征出视频信息的多粒度表示模型。

【技术特征摘要】
1.一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，首先，基于多标记学习理论和深度学习理论，提取出视频中不同对象不同层次的特征，构建泛化的多标记分类算法；其次，基于粒计算理论和自然语言理解技术，表征出视频信息的多粒度表示模型。2.如权利要求1所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，通过自然语言处理的方法，得到视频内容的文本描述信息。3.如权利要求1或者2所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，具体包括以下步骤：1)对采集的监控视频进行关键帧的提取；2)使用深度学习方法对图像进行训练，构造分类器；3)使用步骤2)所述分类器对视频第一帧图像进行多标记学习，检测并标定出图像中的目标；4)根据步骤3)中标定的目标，对后续的视频图像同时使用目标跟踪算法和目标检测算法；所述目标检测算法用于标定目标位置和目标类别信息，所述目标跟踪算法用于得到目标的运动信息和轨迹信息；5)对步骤4)中识别出的目标进行HOG特征提取，获得图像的边缘轮廓特征；6)对步骤4)中识别出的目标进行LBP特征提取，获得图像的LBP特征统计直方图；7)对步骤4)中识别出的目标进行HSV颜色提取，获得图像颜色直方图；8)对步骤5)、步骤6)和步骤7)中获取的信息进行整合，对识别目标使用基于词簇的多粒度表示算法，从不同粒度不同方面对目标进行表示及描述；9)对步骤4)中提取的目标轨迹信息使用轨迹分析方法进行分析，得到目标的运动特征和运动状态信息；10)对步骤8)和步骤9)得到的目标信息进行整合，使用自然语言处理技术生成视频内容描述的语句。4.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，所述步骤(2)中得到的分类器，对视频帧中的目标进行检测，在训练过程中，设定的输出类别为三类，分别为行人，车辆和环境(环境为除人和车辆之外物体的统称)。5.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，所述步骤(4)，使用基于注意力机制的快速卷积神经网络(FastRCNN)对图像进行目标检测与识别；将视频中的关键帧作为FastRCNN的输入:首先，用selectivesearch在输入图片中提取约2k个objectproposal(这里称为RoI)；然后，缩放图片的尺度得到图片金字塔；对于每个尺度的每个RoI，求取映射关系，在之后的卷积层中裁剪(crop)出对应的patch；并用一个单层的SPPlayer(这里称为Rolpoolinglayer)来统一到一样的尺度。接着，经过两个全连接得到RoI特征向量，并将此特征共享到两个新的全连接层，连接上两个优化目标；第一个优化目标是分类，使用softmax，第二个优化目标是bboxregression，使用了一个smooth的L1-loss。所述RoIpoolinglayer将图像中的RoI定位到特征图中对应patch，同时，用一个单层的SPPlayer将这个特征图patch下采样为大小固定的特征再传入全连接层。6.如权利要求5所述的一种基于泛化多标记学习的监控视频多粒度标注方法，其特征在于，使用检测算法找出当前帧中的目标位置，记为D；再根据上一帧中目标的位置使用跟踪算法，得到目标在当前帧中的位置，记为T；目标上一帧的位置记为P。根据连续性假设，检测和跟踪算法得到的目标边界框应该与上一帧中目标出现的位置距离不会太大，并且跟踪算法得到的结果应该和检测算法得到的结果之间的距离也应该小于某个阈值，因此可以得到：||T-P||<λ1(1)||D-P||<λ2(2)||T-D...

【专利技术属性】
技术研发人员：卫志华，张鹏宇，赵锐，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人