用于检测视频中的场景边界的由计算机实现的方法技术

技术编号:3583864 阅读:303 留言:0更新日期:2012-04-11 18:40
一种由计算机实现的方法,其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。

【技术实现步骤摘要】

本专利技术涉及检测视频中的场景边界,并且更具体地涉及使用听觉和 视觉特征检测场景边界。
技术介绍
在视频(和电影)中,镜头和场景边界提供了对理解、组织和浏览 视频有用的结构。当快门打开时出现镜头边界,并且当快门关闭时出现另一镜头边界。 因此,镜头是连续的、不中断的帧序列。通常,用于戏剧、动作片、和 情景喜剧的镜头在几秒的级别。如这里定义的,场景是语义上有意义或内聚的帧序列。场景通常持 续若干分钟。例如,普通的场景包括彼此交谈的演员。(多部)摄像机通 常将场景呈现为若干特写镜头,其中依次示出在倾听或者在发言的每个 演员,并且镜头偶尔将以中距离或远距离在场景中显示所有演员。检测场景边界有挑战性,这是因为对于不同种类的场景边界,甚至 同一种类中的场景边界也不一定具有任何明显的相似之处。有剧本和无剧本的视频中的场景边界可以通过低层次(low level)视 觉特征(如图像差异和运动向量)以及听觉特征(audio feature)的分布 上的差异来检测。通常,在特征提取步骤后,需要与设置的阈值进行比 较,参见Jiang等人的Video segmentation with the support of audio segmentation and classification, Proc. IEEE ICME, 2000; Lu等人的Video summarization by video structure analysis and graph optimization , Proc. IEEE ICME, 2004; Sundaram等人的Video scene segmentation using video and audio features, Proc. IEEE ICME, 2000;以及Sundaram等人的Audio scene segmentation using multiple models, features and time scales, IEEEICASSP, 2000。所有上述技术是特定种类的。这意味着检测器是针对特 定种类的视频而训练,并且对其他种类将不能起作用。期望提供一种对 所有种类的视频有用的场景检测器。由于以下多个因素而使得检测语义场景边界具有挑战性,这些因素 包括缺乏训练数据;难以针对多个种类定义场景边界;缺少刻画并比 较不同特征的性能的系统的方法;以及难以确定手动调谐系统中的阈值。
技术实现思路
本专利技术的实施方式提供了一种用于检测种类无关的视频中的场景边 界的方法。该方法提取视觉和听觉特征,该视觉和听觉特征可以用于检 测与视频内容的种类无关的场景边界。本专利技术提供了一种种类无关的支持向量机(SVM),用于检测视频中 的场景边界。SVM通过使得能够在不使用显式阈值的情况下自动地组合 及比较从音频和视频流中提取的特征集,而作用于来自不同范围种类的 内容。事实上,使用来自大量不同视频种类的已标注场景边界来生成用 于训练SVM的正样本和负样本。附图说明图1是根据本专利技术一实施方式用于检测视频中的场景边界的方法的 流程图;图2是根据本专利技术一实施方式提取听觉特征的示意图;以及 图3是根据本专利技术一实施方式提取视觉特征的示意图。具体实施方式 检测场景边界图1示出了根据本专利技术的实施方式用于检测种类无关的视频中的场 景边界的方法。该方法的输入是听觉-视觉流lOl。听觉-视觉流101包括 音频信号(audio signal) 102和帧(103)序列形式的视觉信号。从音频 信号102中提取听觉特征111 (200),并从视频101的帧103中提取视觉特征121(300)。将听觉和视觉特征组合在一起以构造特征向量131(130)。 由支持向量机(SVM) 140对特征向量进行处理以检测场景边界109。可 以由视频分割、索引和浏览应用使用场景边界。受试者工作曲线(ROC) 136形式的反馈136可以用于测量性能,并基于可用的特征流设计更好的 输入向量。支持向量机更具体地说,使用区分性高斯核(Gaussian-kernel) SVM,见Hastie 等人的The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, 2001年8月,通过引用将其合并于此。SVM是用 于检测场景边界的二元分类器。SVM使用超平面来使属于两个不同类的 数据之间的间隔最大化。训练在训练阶段145,利用训练向量135针对场景边界和非场景边界训 练分类器140。即标注(label)训练向量。在一个实施方式中,该标注是 人工进行的。该训练确定了用于分离组合后的特征向量131的最优并且 可能是非线性的决策边界。一个目标是确定可以在多种视频内容中区分场景边界与非场景边界 的特征。换句话说,场景检测器不是种类相关的。另一个目标是特征向 量131具有相对低的维数。此外,希望特征易于获得并且在计算上高效。听觉特征如图2所示,以44.1 KHz对音频信号102进行采样,并从20 ms音 频帧中提取十二个Mel-频率倒谱系数(MFCC) 201 (210)。基于MFCC 特征201,将音频信号的每一秒分类为四个语义类之一 (220):音乐、语 音、笑声以及静音。注意,可以使用其他语义类。语音可以进一步分类 为男声或女声。为了进行音频分类(220),对高斯混合模型(GMM)进 行最大似然(ML)估计,见Divakaran等人于2006年11月7日提交的 美国专利申请No. 11/593897 , Method and System for Video Segmentation,通过引用将其合并于此。根据音频训练数据估计每个语 义类的GMM。这些语义类有助于检测例如在一些内容中通常伴随场景边界的小段音乐,或情景喜剧的场景结束时经常出现的笑声。 视觉特征如图3所示,记录每个帧的帧号301,并且确定哪个帧号对应镜头 边界302,见Lienhart的Comparison of automatic shot boundary detection algorithms, SP正Vol. 3656, pp290-301, 1998,通过引用将其合并于此。 还可以对视觉特征121在像素级别使用运动向量、图像差异以及颜色直 方图。针对场景(+)和非场景(-)边界将SVM 140的特征向量131定义为— { 乂i , , , 1 , X2 },即,特征有十二维。输入向量《描述了与视频内的特定时间点t (以秒为 单位)有关的局部信息。注意,在给定帧频时(例如,约每秒30帧), 可以根据帧号直接确定时间。为了进行训练(145),针对场景(+)和随 机产生的非场景(-)确定人工标注的时间点的向量《。向量《最先的九个元素是语义标注的直方图。接下来的两个元素表 示在特定时间t之前和之后听觉分布的差,并且最后的元素基于视频镜头 边界302。各元素定义如下前直方图变量x',&、。前直方图表示在持续时间[卜^]的时间窗内,类集合{音乐,语音, 笑声,静音}中的语义标注数量,其中^是所选的窗大小。将该直方图归一化为总和为l。我们可以从4D直方图中丢弃本文档来自技高网
...

【技术保护点】
一种用于检测视频中的场景边界的由计算机实现的方法,该方法包括以下步骤:从不同种类的视频中提取特征向量;以及使用支持向量机将所述特征向量分类为场景边界,并且其中该支持向量机被训练为与所述视频的所述不同种类无关。

【技术特征摘要】
US 2007-2-14 11/674,7501.一种用于检测视频中的场景边界的由计算机实现的方法,该方法包括以下步骤从不同种类的视频中提取特征向量;以及使用支持向量机将所述特征向量分类为场景边界,并且其中该支持向量机被训练为与所述视频的所述不同种类无关。2. 如权利要求l所述的方法,所述方法还包括以下步骤 从所述视频的音频信号中提取听觉特征; 从所述视频的帧中提取视觉特征;以及 将所述听觉特征和所述视觉特征组合为所述特征向量。3. 如权利要求1所述的方法,其中所述视频被压縮。4. 如权利要求l所述的方法,所述方法还包括以下步骤 反馈所述分类的结果以改进所述特征提取。5. 如权利要求1所述的方法,所述方法还包括以下步骤 根据所述场景边界分割所述视频。6. 如权利要求1所述的方法,所述方法还包括以下步骤 在训练视频中标注所述场景边界以训练所述支持向量机。7. 如权利要求2所述的方法,所述方法还包括以下步骤 从所述音频信号中提取Md频率倒谱系数(MFCC);以及 将所述音频信号分类为语义类。.8. 如权利要求7所述的方法,其中所述语义类包括音乐、语音、笑 声和静音。9. 如权利要求8所述的方法,其中所述语音包括男声语音和女声语音10. 如权利要求2所述的方法,其中所述视觉特征包括镜头边界。11. 如权利...

【专利技术属性】
技术研发人员:凯文W威尔森阿贾伊迪瓦卡兰钮峰纳韦恩戈埃拉大塚功
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利