一种视频检索方法和系统技术方案

技术编号:6708991 阅读:303 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种视频检索方法和系统,将视频片段存储在视频数据库中,并提取每个视频片段对应的情感特征向量存储在特征数据库中;输入待检索视频片段,并提取所述待检索视频片段的情感特征向量;将所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量进行匹配,计算两者之间的相似度,并对相似度进行排序,选取预设数量的相似度最大的视频片段;将选取出来的视频片段作为检索结果输出。采用了本发明专利技术的技术方案,能够解决视频片段情感特征提取和视频内容相似度匹配的问题,实现通过高层语义进行视频内容的检索。

【技术实现步骤摘要】

本专利技术涉及数字视频
,尤其涉及一种视频检索方法和系统
技术介绍
近年来,数字视频信息出现了飞速膨胀。新的视频应用,例如数字图书馆、视频点 播、数字电视、视频会议、远程教育等,已经为越来越多的人所接受和熟悉。面对海量的视频 数据,如何找到所需的视频信息就成为一个亟需解决的问题。上个世纪90年代以来,出现 了基于内容的视频分析和检索研究,其目的就是通过对视频内容进行计算机处理、分析和 理解,建立结构和索引,以实现方便有效的视频信息获取。因此,基于内容的视频分析与检 索研究从一开始就得到了广泛的重视,并取得了丰硕的研究成果。基于内容的视频分析从提出到现在,大致经历过3个阶段。第一阶段的研究主要 集中在视频结构的分析和浏览上,其中涉及的关键技术有镜头边界检测、关键帧提取和场 景的合并。第二阶段的研究主要围绕相似性检索展开,核心问题是特征的提取和特征空间 距离的量度。前两个阶段的研究在一定程度上解决了视频检索和浏览的问题.并对视频管 理和获取技术进行了有价值的探索。第三阶段的工作提出了面向语义的信息提取,这也是 目前基于内容视频分析研究的热点。该阶段工作的根本目标是构建从底层特征到高层语义 之间的桥梁,最终形成符合人类思维形式的信息索引和检索方式。视频镜头的检测镜头检测的关键是确定从镜头到镜头的转换处,并利用镜头之间的转换方式找到镜头 图像之间的差别,镜头之间的转变包括切变、渐变和数字特技,针对不同的情况往往需要使 用不同的算法。其中切变检测的算法最为成熟,渐变和数字特技的检测算法往往依赖一定 的先验假设,技术还有待进一步完善。常用的自动镜头检测方法主要有以下几种(1)基于像素的镜头检测方法,利用视频两帧对应像素之间的差别来检测镜头边界,这 种方法的缺点在于容易受到噪声的影响;(2)基于像素平均值,方差等统计特征的镜头检测方法;(3)基于视频特征的镜头检测方法,包括基于边缘特征的比较方法(提取视频每帧图 像的边缘特征,通过检测边缘的突然变化来确定边界),采用颜色比率特征(Color Ratio Feature)的方法、基于光流特征的方法等,这些方法的计算复杂性都比较大;(4)基于直方图的镜头检测方法,此方法利用视频帧图像的灰度直方图或者颜色直方 图的比较来检测边界,在镜头检测的精度和速度之间达到了较好的平衡,因此使用最为普 遍。另外,近年来开始出现了直接对压缩视频进行镜头检测的算法,压缩域内对镜头切变的 检测多是利用DCT系数、运动向量及运动补偿宏块等信息进行的Yasuyuki利用I帧的DC 序列考查前后两个I帧DC图的色度相似度,在镜头切换时,色度变化一般较大,从而确定切 换点。另一种方法是利用B帧中进行运动补偿的宏块数量来进行切变的检测。在压缩域内 镜头渐变的检测方法也较多,典型的有以下几种Yeo等借助从MPEG缩码流中提取出的DC 系数可以检测闪光、淡人、淡出,同时该方法也可以区分叠化和切变;利用MPEG压缩码流中宏块种类的信息可以获得B帧的预测方向,并进而检测到各帧中场景发生变化的区域,通 过对这些变化区域的分析,就可以检测比较复杂的擦除转换,还可以确定擦除的种类。关键帧提取在镜头分割以后,为提供给用户浏览.一般要进行镜头关键帧(Key Frame)的提取工 作。一个镜头的关键帧就是反映该镜头主要内容的一帧图像或若干帧图像。关键帧的选取 一方面必须能够反映镜头中的主要事件,因而描述应尽可能完全律确;另一方面,为便于管 理,数据量应尽量小,且计算不宜太复杂。关键帧提取方法主要包括以下几种(1)最简单的关键帧提取方法是提取镜头固定位置上的帧作为关键帧。例如第一帧、中 间帧或最后一帧,或者相隔固定帧数采样一帧,这种方法操作简单,但不够灵活,因此不能 有效地反映镜头内容;(2)较为复杂的方法包括基于内容复杂性、镜头活动性等特征来提取关键帧,这些方法 能较为准确地反映镜头内容;(3)较理想的方法是通过分析视频视觉内容(颜色直方网、运动信息)随时间的变化情 况,确定所需关键帧的数日,并按照一定的规则为镜头抽取关键帧;(4)还有一种常用的关键帧提取方法是采用图像拼接(Mosaic)技术,也称全景图生成 技术,即对分割得到的镜头各帧进行拼接,融合镜头中多帧的背景信息,生成一个全景的拼 接图像束代表视频片断的内容,虽然全景图能较为全面地反映镜头内容,但由于算法对前 景运动的敏感,这种技术的应用受到一定的限制,还有其他方法,例如用无监督聚类技术来 选择关键帧等。基于内容的相似性检索目前的视频检索主要依赖视频内容的相似性,称相似性检索。相似性检索要求用户提 交感兴趣的视频片断,检索过程将样本片断与视频库中的其它片断作相似性比较,并按相 似性大小返回检索结果。视频相似性检索的研究主要解决两个问题如何提取反映视频内 容的特征;如何度量特征之间的相似性。在特征提取方面,日前的视频检索技术主要是从传统的图像检索技术直接或问接 地继承过来的,颜色、纹理和形状是图像检索中广泛使用的底层特征,相应地,它们也是视 频检索中十分重要的特征。但是,视频并不是简单的同像序列,相邻视频帧之间表现出非常 强的相关性。在近期研究中,越来越多的工作开始利用视频的运动信息为视频检索提供时 序线索,视频检索中使用的运动信息主要有物体运动轨迹、块运动矢量的主分量、时序纹理 和摄像机运动几种在相似性量度方面。相似性量度一般可以分为局部匹配和全局匹配两 种,局部相似性量度方法利用了视频片断间的时序关系,但仅局限在简单的线性关系上,更 有计算复杂的缺点;相反.全局相似性量度方法具有索引信息少、检索速度快等优点。但却 对视频的时序关系缺乏描述,因此,更复杂的相似性量度方法被提出,例如运动物体轨迹、 基于流形假设的最短特征线等。基于内容的视频检索一直是计算机科学研究的热点和难点问题。目前该技术仍然 只是对底层特征的检索,与人们思维中的高层语义概念相去甚远,如何跨越语义鸿沟还需 要做更多的研究。
技术实现思路
本专利技术的目的在于提出一种视频检索方法和系统,能够解决视频片段情感特征提 取和视频内容相似度匹配的问题,实现通过高层语义进行视频内容的检索。为达此目的,本专利技术采用以下技术方案 一种视频检索方法,包括以下步骤A、将视频片段存储在视频数据库中,并提取每个视频片段对应的情感特征向量存储在 特征数据库中;B、输入待检索视频片段,并提取所述待检索视频片段的情感特征向量;C、将所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量进行匹 配,计算两者之间的相似度,并对相似度进行排序,选取预设数量的相似度最大的视频片段;D、将选取出来的视频片段作为检索结果输出。步骤A和步骤B中,提取视频片段的情感特征向量进一步包括以下步骤 对视频片段从语义层分割成场景;从每个场景中提取关键帧;提取场景中每个关键帧的情感特征向量,对场景中所有关键帧的情感特征向量求均 值,获得场景的情感特征向量;对视频片段中所有场景的情感特征向量求均值,获得视频片段的情感特征向量。提取关键帧的情感特征向量进一步包括以下步骤 提取关键帧的底层特征向量;定义关键帧语义层的情感特征向量;利用模糊集建立底层特征向量和情感特征向量之间的模糊关系矩阵; 根据底层特征向量获得关键帧语义层的情感特征向本文档来自技高网
...

【技术保护点】
1.一种视频检索方法,其特征在于,包括以下步骤:A、将视频片段存储在视频数据库中,并提取每个视频片段对应的情感特征向量存储在特征数据库中;B、输入待检索视频片段,并提取所述待检索视频片段的情感特征向量;C、将所述待检索视频片段的情感特征向量与特征数据库中的每个情感特征向量进行匹配,计算两者之间的相似度,并对相似度进行排序,选取预设数量的相似度最大的视频片段;D、将选取出来的视频片段作为检索结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵百泉
申请(专利权)人:天脉聚源北京传媒科技有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1