当前位置: 首页 > 专利查询>同济大学专利>正文

基于泛化多标记学习的监控视频多粒度标注方法技术

技术编号:16153731 阅读:34 留言:0更新日期:2017-09-06 18:44
本发明专利技术公开一种基于泛化多标记学习的监控视频多粒度标注方法,以公安视频监控内容分析为背景,从视频特征多层次获取和多粒度表示的理论和方法开展研究工作。首先,基于多标记学习理论和深度学习理论,分析和提取视频中各对象不同层次的特征,构建泛化的多标记分类算法;其次,基于粒计算理论和自然语言理解技术,表征出视频信息的多粒度表示模型。本发明专利技术是对监控视频内容分析领域进行深入系统的研究,通过深度学习理论构造泛化多标记学习算法,能够为多层次视频信息提取提供有效理论和方法;通过模拟人类认识和描述图像方法,建立多粒度视频表示理论和方法,为视频内容分析提供新思路。为未来推动视频监控智能化发展奠定理论和应用基础。

【技术实现步骤摘要】
基于泛化多标记学习的监控视频多粒度标注方法
本专利技术属于计算机视觉领域,具体地说,涉及基于泛化多标记学习的监控视频多粒度标注方法。
技术介绍
随着视频监控技术的日益成熟和监控设备的不断普及,视频监控应用越来越广泛,监控视频数据量呈现出爆炸式的增长,已经成为大数据时代的重要数据对象。例如,遍布上海市的百万级监控探头每分钟产生TB级的视频数据,为实时掌握社会动态和保障公共安全提供了宝贵的视频资源。然而,由于视频数据本身的非结构化特性,使得其处理和分析相对困难。目前对视频数据的应用仍然主要以人工分析为主,辅以简单的智能化分析手段,存在“视频在、找不到”,“找得到、找太久”,“有服务、不可靠”等海量视频应用的瓶颈。同时,目前的视频监控系统还存在传输压力大、描述方法不统一等问题。这些问题严重制约了视频监控技术进一步发展和应用。因此,面对海量的监控视频大数据,如何实现高效的视频内容表示是视频监控应用亟待解决的关键问题。将视频信息转化为表征其内容的文本信息是解决上述问题的一个有效途径。基于该类方法进行视频表示的研究大多基于两类方法:1)视频内容标注:基于机器学习算法为视频中对象自动添加类别标记,用类别标记表示视频内容;2)视频内容理解:基于计算机视觉和自然语言理解技术,通过提取视频中对象的局部特征,形成对视频内容的自然语言描述。视频内容标注对视频的描述单一化,缺乏对对象特征和对象间关联性的描述;视频内容理解虽然可能包含更多的信息,但由于现实场景复杂多变,难以统一定义,目前只能在特定场景下取得一定的效果,还无法服务于实际应用。因此,这些问题的存在导致监控视频的智能化应用还处于较低的水平。针对现有视频内容表示方法中标注单一化,各部件空间关系难以准确定义和描述等问题,我们需要一种能够对复杂场景中多种对象同时标注,且能进一步标注对象自身部件特征的结构化视频表示方法,即泛化多标记视频内容标注方法。
技术实现思路
本专利技术的目的在于公开一种基于泛化多标记学习的监控视频多粒度标注方法,针对当前视频监控中存在的问题和困难,围绕视频特征多层次获取和多粒度表示的理论和方法展开研究工作。本专利技术的研究成果将丰富和拓展机器学习理论和方法,同时也为未来推动视频监控智能化发展奠定理论和应用基础。本专利技术公开了一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,以公安视频监控内容分析为背景,从视频特征多层次获取和多粒度表示的理论和方法开展研究工作。首先,基于多标记学习理论和深度学习理论,分析和提取视频中各对象不同层次的特征,构建泛化的多标记分类算法,识别出监控视频的多个多种不同类别的目标;其次,基于粒计算理论和自然语言理解技术,探索视频信息的多粒度表示模型,从不同粒度不同层次不同方面对目标进行描述,最后生成文本信息。本专利技术公开了一种泛化多标记学习方法,其特征在于,可以对同一样本中多个对象同时学习标记并标记其部件信息。其中“泛化”体现在从多个层次将对象的部件信息和多层次特征附加在类别标记上,从而输出以类别标记为核心的一组词汇来描述视频。本专利技术公开了一种基于词簇的视频内容多粒度表示算法,其特征在于,这是一种多粒度监控视频表示模型,将不同层次的特征对应到不同的粒层,设计不同粒层之间的信息转换与合并机制。在泛化多标记分类算法已获得的词汇基础上建立一种多粒度的词汇结构表示模型—词簇,其中包含了针对视频中某个部件的一组词汇以及词汇间的关系,这种关系能反映出视频中各要素的联系,这种结构化的表示形式不追求形成优美的自然语言语句,但可以从多个粒度上反映视频内容。本专利技术公开了一种基于泛化多标记学习的监控视频多粒度标注方法,包括以下步骤:1)对采集的监控视频进行关键帧的提取;2)使用深度学习方法对图像进行训练,构造分类器;3)使用步骤2)所述分类器对视频第一帧图像进行多标记学习,检测并标定出图像中的目标;4)根据步骤3)中标定的目标,对后续的视频图像同时使用目标跟踪算法和目标检测算法。目标检测算法用于标定目标位置和目标类别信息,目标跟踪算法用于得到目标的运动信息轨迹信息。检测算法和跟踪算法结合使用,提升算法整体的鲁棒性;5)对步骤4)中识别的目标进行HOG特征提取,获得图像的边缘轮廓特征;6)对步骤4)中识别的目标进行LBP特征提取,获得图像的LBP特征谱统计直方图;7)对步骤4)中识别的目标进行HSV颜色提取,获得图像颜色直方图;8)对步骤5)、步骤6)和步骤7)中获取的信息进行整合,对识别目标使用基于词簇的多粒度表示算法,从不同粒度不用方面对目标进行表示及描述;9)对步骤4)中提取的目标轨迹信息使用轨迹分析方法进行分析,得到目标的运动特征和运动状态信息;10)对步骤8)和步骤9)得到的目标信息进行整合,使用自然语言处理的方法生成视频内容分析的语句。有益效果1)本专利技术针对现有视频内容表示方法标注单一化,各部件空间关系难以准确定义和描述等问题,提出泛化多标记学习,对同一样本中多个对象同时学习标记并标记其部件信息。深度学习从人类感知世界的机理出发,通过无监督学习方式从数据中学习到层次化的特征,并在海量样本上加以训练,往往能够获取对象的多层次语义特征,基于深度学习理论构造的泛化多标记学习算法,能够为多层次视频信息提供有效的理论和方法。2)本专利技术在目标识别方面除了使用深度学习理论构造分类器,还使用目标跟踪算法来强化检测效果并得到目标的运动轨迹信息。首先,单一的检测算法或单一的跟踪算法在目标识别上都有其优势及不足,使用检测加跟踪并行的方法,可以增强算法的鲁棒性,减少误报率和漏检率。同时,跟踪算法的使用可以获得目标的轨迹信息,结合目标轨迹算法的使用,可以分析并获取目标的运动信息,为视频内容分析奠定基础。3)本专利技术使用粒计算的思想对监控视频中的目标进行描述。粒计算是计算智能研究领域中通过模拟人类思维以解决海量复杂问题的一种新的计算范式。人类以不同的粒度和抽象度来看待世界,在不同粒度上概念化世界并在不同粒度上相互转化是人类智能与适应能力的表现。粒计算理论提供了信息在不同粒层之间的转换理论和方法,为视频表示模型提供了对象与对象、对象与部件间进行转化和相似度度量的基础。因此,模拟人类认识和描述图像的方法,建立多粒度视频表示理论和方法,应能为视频内容表示提供新的思路。使用基于词簇的视频内容多粒度表示方法,可以使算法对监控视频中的目标物体描述更加全面具体,结合自然语言处理技术,形成描述性更加完备的文本信息。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1专利技术框架图图2深度学习理论和多标记学习理论示意图图3目标检测与跟踪算法流程图图4基于词簇的目标多粒度表示示意图图5轨迹表示与运动描述图图6综合示意图具体实施方式以下将配合附图及实施例来详细说明本专利技术的实施方式,藉此对本专利技术如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。本专利技术公开了一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,以公安视频监控内容分析为背景,从视频特征多层次获取和多粒度表示的理论和方法开展研究工作。首先,基于多标记学习理论和深度学习理论,分析和提取视频中各对象不同本文档来自技高网
...
基于泛化多标记学习的监控视频多粒度标注方法

【技术保护点】
一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,首先,基于多标记学习理论和深度学习理论,提取出视频中不同对象不同层次的特征,构建泛化的多标记分类算法;其次,基于粒计算理论和自然语言理解技术,表征出视频信息的多粒度表示模型。

【技术特征摘要】
1.一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,首先,基于多标记学习理论和深度学习理论,提取出视频中不同对象不同层次的特征,构建泛化的多标记分类算法;其次,基于粒计算理论和自然语言理解技术,表征出视频信息的多粒度表示模型。2.如权利要求1所述的一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,通过自然语言处理的方法,得到视频内容的文本描述信息。3.如权利要求1或者2所述的一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,具体包括以下步骤:1)对采集的监控视频进行关键帧的提取;2)使用深度学习方法对图像进行训练,构造分类器;3)使用步骤2)所述分类器对视频第一帧图像进行多标记学习,检测并标定出图像中的目标;4)根据步骤3)中标定的目标,对后续的视频图像同时使用目标跟踪算法和目标检测算法;所述目标检测算法用于标定目标位置和目标类别信息,所述目标跟踪算法用于得到目标的运动信息和轨迹信息;5)对步骤4)中识别出的目标进行HOG特征提取,获得图像的边缘轮廓特征;6)对步骤4)中识别出的目标进行LBP特征提取,获得图像的LBP特征统计直方图;7)对步骤4)中识别出的目标进行HSV颜色提取,获得图像颜色直方图;8)对步骤5)、步骤6)和步骤7)中获取的信息进行整合,对识别目标使用基于词簇的多粒度表示算法,从不同粒度不同方面对目标进行表示及描述;9)对步骤4)中提取的目标轨迹信息使用轨迹分析方法进行分析,得到目标的运动特征和运动状态信息;10)对步骤8)和步骤9)得到的目标信息进行整合,使用自然语言处理技术生成视频内容描述的语句。4.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,所述步骤(2)中得到的分类器,对视频帧中的目标进行检测,在训练过程中,设定的输出类别为三类,分别为行人,车辆和环境(环境为除人和车辆之外物体的统称)。5.如权利要求3所述的一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,所述步骤(4),使用基于注意力机制的快速卷积神经网络(FastRCNN)对图像进行目标检测与识别;将视频中的关键帧作为FastRCNN的输入:首先,用selectivesearch在输入图片中提取约2k个objectproposal(这里称为RoI);然后,缩放图片的尺度得到图片金字塔;对于每个尺度的每个RoI,求取映射关系,在之后的卷积层中裁剪(crop)出对应的patch;并用一个单层的SPPlayer(这里称为Rolpoolinglayer)来统一到一样的尺度。接着,经过两个全连接得到RoI特征向量,并将此特征共享到两个新的全连接层,连接上两个优化目标;第一个优化目标是分类,使用softmax,第二个优化目标是bboxregression,使用了一个smooth的L1-loss。所述RoIpoolinglayer将图像中的RoI定位到特征图中对应patch,同时,用一个单层的SPPlayer将这个特征图patch下采样为大小固定的特征再传入全连接层。6.如权利要求5所述的一种基于泛化多标记学习的监控视频多粒度标注方法,其特征在于,使用检测算法找出当前帧中的目标位置,记为D;再根据上一帧中目标的位置使用跟踪算法,得到目标在当前帧中的位置,记为T;目标上一帧的位置记为P。根据连续性假设,检测和跟踪算法得到的目标边界框应该与上一帧中目标出现的位置距离不会太大,并且跟踪算法得到的结果应该和检测算法得到的结果之间的距离也应该小于某个阈值,因此可以得到:||T-P||<λ1(1)||D-P||<λ2(2)||T-D...

【专利技术属性】
技术研发人员:卫志华张鹏宇赵锐
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1