基于Bag of Words的视频匹配方法组成比例

技术编号:10177343 阅读:122 留言:0更新日期:2014-07-02 16:58
本发明专利技术涉及一种基于Bag of Words的视频匹配方法,具体步骤如下:(a)提取图像的局部特征;(b)量化图像的局部特征,构建视觉关键词辞典;(c)将图像表示为由若干视觉关键词组成的集合。本发明专利技术的基于BagofWords的视频匹配方法,将视频子镜头描述为若干视觉关键词组成的序列,在保留局部特征的同时压缩了视频的索引数据,并在此基础上构建了基于子镜头特征编码的倒排索引表,解决了视频子镜头的快速查找和匹配的问题,比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于Bag?of?Words的视频匹配方法,具体步骤如下:(a)提取图像的局部特征;(b)量化图像的局部特征,构建视觉关键词辞典;(c)将图像表示为由若干视觉关键词组成的集合。本专利技术的基于BagofWords的视频匹配方法,将视频子镜头描述为若干视觉关键词组成的序列,在保留局部特征的同时压缩了视频的索引数据,并在此基础上构建了基于子镜头特征编码的倒排索引表,解决了视频子镜头的快速查找和匹配的问题,比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。【专利说明】
本专利技术涉及一种。
技术介绍
随着电视节目的积累和网络视频的普及,视频数据库的规模和容量正在迅速增力口,于是自动地对大量的并且正在不断增加的视频进行分析和理解成为一项越来越紧迫的任务。与此同时,如何组织视频数据并实现快速检索也成为越来越重要的研究课题。对于视频检索,现有通用的方法主要是通过手动的方法对视频中的内容进行标注,然后按照这种标注对视频进行组织和索引。这种方法的缺点是在大量甚至海量的视频样本空间中,使用手工标注是一件费时费力的工作,同时使用若干标注词或者文字段落很难将视频中全部的内容都表述清楚。所以从发展的角度来看,对于海量的视频存储组织与索引应当更多地从视频的内容出发,在视频库中找到与目标视频最匹配的视频。大样本空间中的视频匹配技术是根据用户提交的待查询视频,在视频数据库中查找与其内容一致的视频片段。比如对一个包含多个广告的视频序列,在视频数据库中进行查找与其内容一致的视频片段,根据匹配查找的结果就能得到对应广告视频的具体信息,并且能够确定该广告出现在该视频序列中的位置。视频匹配技术与传统的基于内容的视频检索(content-based video retrieval)存在许多相似之处。基于内容的视频检索,是根据用户提交的视频实例,在视频数据库中查找与其相似的视频片断,其基本思想是提取视频片段的特征并计算与视频数据库中各视频片断的相似度,通过对相似度从高到底排列得到检索结果。虽然视频检索和视频匹配的目标都是为了实现目标视频的一到多的查询,但两者仍存在显著的差异。视频检索更注重相似度度量方面的研究,关心如何快速查找出与查询相关的视频,视频匹配更注重视频数据的建模和索引,关心如何快速查找出查询视频中与视频样本一致的视频片段。由于视频的内在特性,顺序扫描并计算视频片段相似性的方法在视频匹配问题中效率低下。许多研究者提出了不同的视频建模方法以提高相似性查询的效率。文献采用随机采样的办法,将视频描述为若干关键巾贞ViSig(Video Signature)的集合,以达到压缩视频索弓I提高查询速度的目的。但以帧为单位建立索引,忽略了视频序列中各帧的时间顺序,影响了查询精度。文献提出了一种介于镜头和帧之间的视频表示形式,并以此为基本单位提取全局特征,通过K均值聚类的方法加速了高维索引查询过程,但查询精度易受聚类效果影响。文献在文献的基础上利用VA-File (vector- approximationfile)组织视频数据库,通过数据压缩和近似计算提高查询效率。这些方法或者从视频帧或者从视频片段中提取高维的特征向量以实现视频的相似性计算,但由于要同时考虑全局和局部的特征,即使使用了不同的降维方法,高维特征的索引和相似性计算的代价仍然是视频检索和匹配系统的一大瓶颈。
技术实现思路
本专利技术要解决的技术问题是:为了克服上述中存在的问题,提供一种基于Bag ofWords的视频匹配方法。本专利技术解决其技术问题所采用的技术方案是:一种,其特征是具体步骤如下: (a)提取图像的局部特征; (b)量化图像的局部特征,构建视觉关键词辞典; (C)将图像表示为由若干视觉关键词组成的集合。(a)中提取图像的局部特征的具体步骤如下:步骤1:将一个镜头内部的内容分解为复数个子镜头; 步骤2:对每个子镜头内每一帧图像进行特征抽取:(I)图像的统计特征;(2)局部区域的兴趣点描述子; 步骤3:选择64维亮度直方图作为图像的统计特征;选择计算8*8=64维SIFT描述子作为兴趣点描述子;将每帧图像分为4X4=16个区域; 步骤4:利用在线滑动窗口的方法提取子镜头,其具体算法步骤如下: (1)利用子镜头依次进行输入视频V,提取当前帧图像I,提取帧特征兄,当前活动子镜头的特征^; (2)计算兄和兄之间的距离,。(b)量化图像的局部特征,构建视觉关键词辞典的具体步骤如下:(1)输入视频; (2)对输入视频利用子镜头分割特征提取; (3)将提取到的特征输入视觉关键词辞典; (4)视觉关键词辞典构建后进行子镜头特征量化; (5)量化后的子镜头特征作为索引的基本单位,用于构建出子镜头编码索引表和子镜头倒排索引表。(C)将图像表示为由若干视觉关键词组成的集合的具体步骤如下:(I)提取局部特征,视频数据库中子镜头的所有子区域特征被A-means聚类方法量化为A个离散的特征向量,左个均值特征向量为局部特征对应的视觉关键词; (2)子镜头的每个子区域特征被映射到这A个视觉关键词中,并用该视觉关键词对应的标号(I…左)表不; (3)子镜头则相应地表示为16个整数,当中的每个整数与子区域映射的视觉关键词的标号对应。本专利技术的有益效果是,本专利技术的,将视频子镜头描述为若干视觉关键词组成的序列,在保留局部特征的同时压缩了视频的索引数据,并在此基础上构建了基于子镜头特征编码的倒排索引表,解决了视频子镜头的快速查找和匹配的问题,比传统基于特征相似性比较的方法具有更高的匹配精度和更快的检索速度。【专利附图】【附图说明】 下面结合附图和实施例对本专利技术进一步说明。图1是本专利技术的子镜头分割流程图; 图2是本专利技术子镜头分割示例图;图3是本专利技术子镜头检索流程图; 图4是本专利技术子镜头的表示方法示意图。【具体实施方式】现在结合附图对本专利技术作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。本专利技术的,具体步骤如下: (a)提取图像的局部特征; (b)量化图像的局部特征,构建视觉关键词辞典; (C)将图像表示为由若干视觉关键词组成的集合。如图1和图2所示的,Ca)中提取图像的局部特征的具体步骤如下:步骤1:将一个镜头内部的内容分解为复数个子镜头; 步骤2:对每个子镜头内每一帧图像进行特征抽取:(I)图像的统计特征;(2)局部区域的兴趣点描述子; 步骤3:选择64维亮度直方图作为图像的统计特征;选择计算8*8=64维SIFT描述子作为兴趣点描述子;将每帧图像分为4X4=16个区域; 步骤4:利用在线滑动窗口的方法提取子镜头,其具体算法步骤如下: (1)利用子镜头依次进行输入视频V,提取当前帧图像I,提取帧特征兄,当前活动子镜头的特征^; (2)计算兄和兄之间的距离,。如图3所示的,(b)量化图像的局部特征,构建视觉关键词辞典的具体步骤如下:(I)输入视频; (2)对输入视频利用子镜头分割特征提取; (3)将提取到的特征输入视觉关键词辞典; (4)视觉关键词辞典构建后进行子镜头特征量化; (5)量化后的子镜头特征作为索引的基本单位,用于构建出子镜头编码索引表和子镜本文档来自技高网
...

【技术保护点】
一种基于Bag of Words的视频匹配方法,其特征是具体步骤如下:(a)提取图像的局部特征;(b)量化图像的局部特征,构建视觉关键词辞典;(c)将图像表示为由若干视觉关键词组成的集合。

【技术特征摘要】

【专利技术属性】
技术研发人员:屈景春吴军
申请(专利权)人:重庆凯泽科技有限公司
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1