对视频数据进行管理的方法和装置制造方法及图纸

技术编号:2952029 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种对视频数据进行管理的方法和装置。该方法主要包括:用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息;根据所述帧图像的深度信息,对由所述多个视频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,根据该语义特征对所述视频数据进行进一步处理。利用本发明专利技术,可以得到视频数据的帧图像的深度信息,从而可以基于该深度信息提取出视频数据的高层语义信息,并基于高层语义信息对视频数据进行有效地管理。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,具体涉及一种对视频数据进行管理的方法和 装置。
技术介绍
随着信息社会的发展,人们每天都要面临大量不同形式的信息。视频数据由于其集^L觉、听觉和文本信息于一体的特点正在受到越来越多的关注, 成为人们传播和获取信息的 一种重要方式。随着各种视频资料源源不断地产生,如何从越来越多的视频数据库中快 速、高效地检索得到所需要的视频,已成为人们的一个迫切需要。目前,现 有的视频检索技术大致可以分为两类基于文本的视频检索技术和基于内容 的视频检索技术。基于文本的视频检索技术主要是在离线状态下通过人工注释对视频进行 文本描述,并将这些文本描述信息存储在视频数据库中供检索使用。由于人 工注释不仅耗费大量的人力和时间,而且带有很大的主观性,很多情况下不 能对视频内容做出客观的描述。因此,基于文本的视频检索技术的应用有很 大的局限性。基于内容的视频检索技术不仅可以利用关键词进行检索,还可以利用低 层特征信息的客观测量(如颜色、紋理、形状等)作为描述视频内容的重要 手段,并构造合适的相似性度量模型。由于上述低层特征信息从不同角度更 加客观地反映了视频内容,这就使得基于内容的视频检索比基于文本的视频-险索有更广阔的应用前景。尽管如此,和人的4企索能力相比,目前计算机的4企索效果还相差甚远。 这主要是因为人在比较不同事物之间的相似性时,主要使用高层语义信息, 而基于内容的视频检索目前还基本处于非语义的层面上。因此,如何从低层 特征信息得到高层语义信息,然后利用高层语义信息进行检索也就成了目前 视频检索领域最活跃的一个研究方向。对视频图像合理的分割能够有利于上述高层语义信息的提取,视频图像 的深度信息的使用更有可能使视频图像的分割结果符合人的高层语义。在深 度信息的支持下,人们不仅能够获得有关物体的形状、大小和颜色等信息, 还能够根据所获得的物体空间方位等信息,正确判断自身与客观环境之间的 相对位置关系,从而形成更加接近于人的高层语义表示的感知结果。现有技术中的 一种获取视频图像的深度信息的方法为从单视点视频序 列中恢复出视频图像的深度信息,并进而进行视频图像的分割。在实现本专利技术的过程中,专利技术人发现上述现有技术存在如下的缺点由 于静止物体在相邻视频帧图像中不产生视差,也就无法恢复出深度信息,因 此,该方法不适用于静止场景。并且,该方法也没有涉及视频才企索。现有技术中还没有一种基于视频图像的深度信息获取高层语义信息,并 对视频图像进行管理的方法。
技术实现思路
本专利技术实施例提出 一种对视频数据进行管理的方法和装置,以解决现有 技术不能获取静止场景的深度信息,不能基于视频图像的深度信息获取高层 语义信息的问题。本专利技术实施例的目的是通过以下技术方案实现的一种对视频数据进行管理的方法,包括7用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场 景的多个视频片段,根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息;根据所述帧图像的深度信息,对由所述多个视频片段组成的视频数据进 行语义分析,提取出所述视频数据的语义特征,根据该语义特征对所述视频 数据进行管理。一种对视频数据进行管理的装置,包括深度信息获取模块,用于用多个摄像机从不同角度对同一个实际场景进 行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关 系信息计算出所述多个视频片段中包含的帧图像的深度信息;语义特征获取模块,用于根据所述帧图像的深度信息,对由所述多个视 频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,视频数据管理模块,用于根据所述视频数据的语义特征对所述视频数据 进行管理。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例可以得 到实际场景对应的视频数据的帧图像的深度信息,从而可以基于该深度信息 提取出视频数据的高层语义信息,并基于高层语义信息对视频数据进行有效 地管理。 附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的一种对视频数据进行检索的方法的处理流程图2为本专利技术实施例一提供的视频数据的典型结构示意图3为本专利技术实施例一提供的两个摄像机(左摄像机C1和右摄像机C2 ) 的位置配置示意图4为本专利技术实施例二提供的 一种对视频数据进行管理的装置的结构示意图。具体实施例方式在本专利技术实施例中,用多个摄像机从不同角度对同一个实际场景进行拍 摄,得到所述实际场景的立体的多个视频片段,根据所述多个摄像机的位置 关系信息利用立体视觉算法计算出所述多个视频片段中包含的帧图像的深度 信息。然后,根据所述帧图像的深度信息,结合视频数据的其它低层特征信 息,对由所述多个视频片段组成的视频数据进行语义分析,提取出所述视频 数据的语义特征,根据该语义特征对所述视频数据进行进一步管理。为便于对本专利技术实施例的理解,下面将结合附图以几个具体实施例为例 做进一步的解释说明,且各个实施例并不构成对本专利技术实施例的限定。实施例一该实施例提供的 一种对视频数据进行检索的方法的处理流程如图1所示, 包括如下处理步骤步骤11、通过双摄像机采集立体的视频片段。视频数据的典型结构示意如图2所示,从下到上依次是帧、镜头、场景、 视频。帧是视频数据的最小单元,是一幅静止的画面, 一个帧由多个像点组 成。镜头是视频数据的基本单位,其中包括通过摄像头一次连续的动作拍摄到的相邻地点上连续发生的多个帧。场景由内容相近的镜头组成,从不同的 角度描述同一个事件。而视频则由许多场景组成,叙述一个完整的故事,一个一见频可以包括多个^L频片l殳。传统的视频场景是用单摄像机采集得到的,该实施例采用双摄像机来采集立体的视频片段,该两个摄像机(左摄像机C1和右摄像机C2)的位置配置 示意图如图3所示,该两个摄像机采用立体视觉中最常用的标准平行配置, 并用摄像机校正的方法对两个摄像机的位置进行校正,以使该两个摄像机能 够同时从不同角度对同 一个实际场景进行拍摄,得到立体的视频片段。同一实际场景点在两个摄像机上分别形成的像点称为对应点。比如,空 间中的一个实际场景点为P,分别在左摄像机C1、右摄像机C2的图像平面上 形成像点P1和像点P2,上述像点P1和像点P2称为对应点。上述两个摄像机在视频采集过程中尽量保持相对位置的固定,即使根据 拍摄需要必须改变其位置,也要将两摄像机之间的相对位置关系记录下来, 便于后续处理中根据此信息恢复每帧图像的深度信息。上述实际场景可以包括静止场景,上述两个摄像机分别采集到的多个视 频片段便组成需要检索的视频数据。步骤12、根据采集到的立体的视频片段计算出视频片段中包含的帧图像 的深度信息。基于上述采集到的立体的视频片段,根据现有的立体视觉算法可以计算 出视频片段中包含的帧图像中的每个像点的深度信息,具体计算过程如下对于左摄像机C1的图像平面上的每个点(如图2中点P1),利用立体视 觉的方法找出其在右摄像机C2的图像平面上的对应点(如图2中点P2),然 后根据这两个点的位置关系和两台摄像机本文档来自技高网
...

【技术保护点】
一种对视频数据进行管理的方法,其特征在于,包括: 用多个摄像机从不同角度对同一个实际场景进行拍摄,得到所述实际场景的多个视频片段,根据所述多个摄像机的位置关系信息计算出所述多个视频片段中包含的帧图像的深度信息; 根据所述帧图像的深度信息,对由所述多个视频片段组成的视频数据进行语义分析,提取出所述视频数据的语义特征,根据该语义特征对所述视频数据进行管理。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪增福王琦
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1