用于检测视频中的场景边界的由计算机实现的方法技术

技术编号：3583864 阅读：303 留言：0更新日期：2012-04-11 18:40

一种由计算机实现的方法，其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及检测视频中的场景边界，并且更具体地涉及使用听觉和视觉特征检测场景边界。
技术介绍
在视频(和电影)中，镜头和场景边界提供了对理解、组织和浏览视频有用的结构。当快门打开时出现镜头边界，并且当快门关闭时出现另一镜头边界。因此，镜头是连续的、不中断的帧序列。通常，用于戏剧、动作片、和情景喜剧的镜头在几秒的级别。如这里定义的，场景是语义上有意义或内聚的帧序列。场景通常持续若干分钟。例如，普通的场景包括彼此交谈的演员。(多部)摄像机通常将场景呈现为若干特写镜头，其中依次示出在倾听或者在发言的每个演员，并且镜头偶尔将以中距离或远距离在场景中显示所有演员。检测场景边界有挑战性，这是因为对于不同种类的场景边界，甚至同一种类中的场景边界也不一定具有任何明显的相似之处。有剧本和无剧本的视频中的场景边界可以通过低层次(low level)视觉特征(如图像差异和运动向量)以及听觉特征(audio feature)的分布上的差异来检测。通常，在特征提取步骤后，需要与设置的阈值进行比较，参见Jiang等人的Video segmentation with the support of audio segmentation and classification, Proc. IEEE ICME， 2000; Lu等人的Video summarization by video structure analysis and graph optimization , Proc. IEEE ICME， 2004; Sundaram等人的Video scene...

【技术保护点】
一种用于检测视频中的场景边界的由计算机实现的方法，该方法包括以下步骤：从不同种类的视频中提取特征向量；以及使用支持向量机将所述特征向量分类为场景边界，并且其中该支持向量机被训练为与所述视频的所述不同种类无关。

【技术特征摘要】
US 2007-2-14 11/674,7501.一种用于检测视频中的场景边界的由计算机实现的方法，该方法包括以下步骤从不同种类的视频中提取特征向量；以及使用支持向量机将所述特征向量分类为场景边界，并且其中该支持向量机被训练为与所述视频的所述不同种类无关。2. 如权利要求l所述的方法，所述方法还包括以下步骤从所述视频的音频信号中提取听觉特征；从所述视频的帧中提取视觉特征；以及将所述听觉特征和所述视觉特征组合为所述特征向量。3. 如权利要求1所述的方法，其中所述视频被压縮。4. 如权利要求l所述的方法，所述方法还包括以下步骤反馈所述分类的结果以改进所述特征提取。5. 如权利要求1所述的方法，所述方法还包括以下步骤根据所述场景边界分割所述视频。6. 如权利要求1所述的方法，所述方法还包括以下步骤在训练视频中标注所述场景边界以训练所述支持向量机。7. 如权利要求2所述的方法，所述方法还包括以下步骤从所述音频信号中提取Md频率倒谱系数(MFCC);以及将所述音频信号分类为语义类。.8. 如权利要求7所述的方法，其中所述语义类包括音乐、语音、笑声和静音。9. 如权利要求8所述的方法，其中所述语音包括男声语音和女声语音10. 如权利要求2所述的方法，其中所述视觉特征包括镜头边界。11. 如权利...

【专利技术属性】
技术研发人员：凯文W威尔森，阿贾伊迪瓦卡兰，钮峰，纳韦恩戈埃拉，大塚功，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人