视频高层特征检索系统及其实现技术方案

技术编号:3854963 阅读:295 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一个基于颜色、边缘、纹理、特征点等多种底层特征和支持向量机(SVM)的视频高层特征检索系统。首先对视频片段进行镜头边界检测,然后等间隔抽取镜头中有代表性的几帧作为关键帧。对于抽取出的关键帧,我们提取了基于颜色、边缘、纹理、以及特征点的多种鲁棒性底层特征。多类底层特征的采用为视频的高层语义特征提供了多方面的描述,由于它们具有很强的互补性,对于不同的语义概念能够分别显示出很强的区分力,这就使得系统对于各中不同概念的检测性能都能得到有效的保证。然后所提取特征被分别送到支持向量机(SVM)中进行分类,形成多支子系统。在概念分类阶段我们选择了支持向量机(SVM)作为分类器,并且首次使用了基于稠密最近邻(Condensed Nearest Neighbor)的方法选取训练参数,有效解决了训练过程中普遍存在的正负样本不均衡问题。为了充分利用多个子系统提供的描述信息,对于多支系统的分类得分,我们采用了两级融合策略,并引入了逻辑回归(Logistic Regression)的方法来学习到最佳的融合策略,使得融合系统的准确率与召回率大大提高。

【技术实现步骤摘要】

本专利技术属于视频检索
,具体涉及一种基于内容的视频镜头检索方法。其实质是 抽取镜头中的关键帧信息,对其进行多类特征提取,并分别用支撑向量机(SVM)计算所查 询内容的匹配度,形成多个子系统。本专利技术提出了一种基于逻辑回归(Logistic Regression) 的得分融合方式,在此基础上得到了统一的高准确率的视频高层特征检索系统。
技术介绍
多媒体技术和互联网的发展给人们带来巨大的多媒体信息海洋,而IPTV、视频网站的的 迅速崛起进一步导致了视频图片等多媒体信息的爆炸性增长,传统的基于文本关键词的检索 方式已经无法满足多媒体信息描述和信息库整理的需要。如何找到一种新的检索方式,有效 的帮助人们快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。基于内容的视频信息检索(Content-Based Retrieval)是一种新的检索技术,是当前多媒 体数据库发展的一个重要研究领域,它通过对非结构化的视频数据进行结构化分析和处理, 采用视频分割技术,将连续的视频流划分为具有特定语义的镜头,作为检索的基本单元,在 此基础上进行关键帧(keyframe)的抽取,形成描述镜头的特征索引,对图像中的颜色、形状、 纹理,或视频中的场景、片断进行分析和特征提取,并基于这些特征进行相似性匹配。在基于内容的视频图像检索中,之前主要研究的是图像的视觉和形象特征,我们称之为 底层特征,包括颜色、纹理、形状以及在此基础上形成的空间关系等方面,以图像的底层视 觉和形象特征为索引对图像进行检索具有计算简单、性能稳定的特点,但目前这些特征都有 一定的局限性。为了实现更为贴近用户理解能力的自然而简洁的査询方式,填补底层特征与 高层语义之间的语义鸿沟,近几年的研究逐渐转向基于场景和目标对象的视频图像高层特征 的提取,尝试由图像的底层次特征推知高层次语义,从而使用高层语义特征计算图像相似程 度。视像高层特征有时也称为概念,是指诸如"行人"、"海滩"、"踢足球"及"十字路口" 等语义内容。视像高层特征抽取就是要计算机自动的发掘视像中这些语义内容。作为基于内 容视像检索的一部分,视像高层特征抽取的任务是在视像结构分析基础上,进行语义分析。 它不仅有着单独存在的意义,而且它还为最终的视像搜索提供更接近语义的特征,协助完成 搜索任务。专利技术的内容为了有效的进行视频高层语义检索,填补人类思维的高层语义与图像处理中底层特征之间的鸿沟,本专利技术提出了一个基于颜色、边缘、纹理、特征点等多种底层特征和支持向量机 (SVM)的视频高层特征检索系统。我们的系统包括四个模块,分别为镜头分割与关键帧抽 取、底层特征提取、支持向量机分类、子系统融合,在每个模块中我们都提出了一些有效的 方法来提高最终系统的性能。本专利技术首先对视频片段进行镜头边界检测,然后等间隔抽取镜头中有代表性的几帧作为 关键帧。对于抽取出的关键帧,我们提取了基于颜色、边缘、纹理、以及特征点的多种鲁棒 性底层特征。多类底层特征的采用为视频的高层语义特征提供了多方面的描述,由于它们具 有很强的互补性,对于不同的语义概念能够分别显示出很强的区分力,这就使得系统对于各 中不同概念的检测性能都能得到有效的保证。然后所提取特征被分别送到支持向量机(SVM) 中进行分类,形成多支子系统。在概念分类阶段我们选择了支持向量机(SVM)作为分类器,并且首次使用了基于稠密 最近邻(Condensed Nearest Neighbor)的方法选取训练参数,有效解决了训练过程中普遍存 在的正负样本不均衡问题。为了充分利用多个子系统提供的描述信息,对于多支系统的分类 得分,我们采用了两级融合策略,并引入了逻辑回归(Logistic Regression)的方法来学习到 最佳的融合策略,使得融合系统的准确率与召回率大大提高。附图说明图l为本专利技术的系统总体框图 图2为关键帧抽取与低层特征提取流程图 图3为支持向量机训练及分类流程图 图4为系统融合流程图 具体实施例方式下面结合附图具体对本专利技术作进一步的详细描述。如图l所示,本专利技术方案分以下步骤-(1) 、自动镜头分割及关键帧抽取;(2) 、对于关键帧的多种特征提取;(3) 、基于支持向量机的概念分类;(4) 、基于逻辑回归的系统融合。 下面是对各步骤的详细说明1、镜头边界自动分割及关键帧抽取概念检测的单^£是镜头(shot),镜头是影片制作过程中的一个连续的不间断的拍摄过程,对应于我们的数据就是一段存在于整段视频中的一般为数秒长的视频片断。镜头分割就是从 一段连续视频当中找出每次镜头切换的具体位置,把整段的视频按照镜头为单元分割成片段。 为了对镜头进行准确和快速的分割,根据场景突变作为镜头切换的判断依据。本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。 一个是颜色直方图差 (HDM), 一个是空间差(SDM)。定义第t帧/,和第t+l帧,+1图片中,/,(/, J)和/,+力',J)表示是坐标为/)的像素点的强度; A("和Z/w(A:)表示L阶颜色直方图的第k阶。帧的分辨率为MXN,于是 颜色直方图差(HDM)可以写成空间差(SDM)可以写成对视频的每一帧,求出它的上述两种距离,当一帧的两个距离值的和大于事先设定的阈 值时,认为这是一个场景的突变,也就是镜头的切换点。最后在一段视频段中,按时间顺序 等间隔抽取几帧作为该视频片段的关键帧。由于一个镜头可以有多个关键帧,因此一个关键 问题是如何将返回的关键帧列表映射回相应的镜头列表,这样的映射可以有很多,我们使用 的映射可描述为用镜头中置信度最高的关键帧的置信度作为该镜头的置信度。2、对于关键帧的多种特征提取图像特征的提取与表达是基于内容的视频检索技术的基础。在我们的系统中,我们釆用了基于颜色、边缘、纹理、特征点等多种特征,简要介绍如下 1)颜色特征颜色特征是在视频检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所 包含的物体或场景十分相关。此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。我们主要采用了颜色自相关图(ColorAuto Correlogram)、颜色一致向量(Color Coherence Vector)和网格颜色矩(Grid Color Moment)。其中,颜色自相关图(CAC)对RGB颜色空间量化为64维之后,沿着D-(l, 3, 5, 7} 四个尺度计算的自相关直方图,共256维;颜色一致向量(CCV)针对HSV36作的颜色一致 向量,72维,采用5jj、块方式,整幅图像共得到360维;,颜色矩(GCM)取一阶矩、二阶矩和三阶矩,需要9个分量(3个颜色分量,每个分量上3个低阶矩),采用4X3分块方式, 共108维。2) 边缘特征边缘特征反映了物体形状的轮廓,是图像目标检测中一个重要特征是。本专利技术中,我们 采用了边缘直方图(Edge Histogram)和边缘一致向量(Edge Coherence Vector)。边缘直方图(EDH))统计落在每5度空间中的边缘的个数,生成的直方图,72维,采 用5分块,共360维;边缘一致向量(ECV)每分块得到64维向量,采用5分±央,共320维。3) 纹理特征纹理特征本文档来自技高网...

【技术保护点】
一个基于视频高层特征检索系统的实现方法,其特征在于包括以下步骤: 第一步,对体育视频进行镜头切割,关键帧提取; 第二步,对于关键帧的颜色、边缘、纹理和特征点等多种低层图像特征的提取; 第三步,对低层特征采用SVM分类器进行 打分; 第四步,融合各种低层特征得到的多个子系统,形成最终系统。

【技术特征摘要】

【专利技术属性】
技术研发人员:董远刘继晴
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1