用于检测新闻主持人镜头的方法和装置制造方法及图纸

技术编号:2931634 阅读:158 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了用于检测新闻主持人镜头的方法和装置。所述方法包括:将活动图像分离为音频信号和视频信号;使用视频信号来确定镜头之间的边界;使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分,并且将所提取的镜头确定为新闻主持人语音镜头。

【技术实现步骤摘要】

本专利技术涉及活动图像处理,具体涉及用于检测活动图像的新闻主持人镜头的方法和装置。
技术介绍
在用于检测在诸如新闻之类的领域中或像电影那样的活动图像中使用的广播信号中的新闻主持人镜头的传统方法中,使用关于新闻主持人镜头的模板来检测新闻主持人镜头。在所述方法中,提前假定和识别关于新闻主持人镜头的格式信息,并且使用所识别的格式信息或使用利用新闻主持人的脸或衣服的颜色产生的模板来提取新闻主持人镜头。但是,在所述方法中,因为使用了新闻主持人的预定模板,因此检测新闻主持人镜头的性能可能由于新闻主持人镜头的格式的改变而大大地变差。而且,在使用新闻主持人的脸或衣服的颜色来检测新闻主持人镜头的传统方法中,当新闻主持人的脸或衣服的颜色类似于背景的颜色或改变照明时,检测新闻主持人镜头的性能变差。另外,在使用第一新闻主持人镜头来获得新闻主持人镜头信息的传统方法中,检测新闻主持人镜头受新闻主持人的数量或新闻主持人镜头的格式改变的程度影响。即,当错误地检测到新闻主持人镜头时,检测新闻主持人镜头的性能变差。同时,在检测新闻主持人镜头的另一种传统方法中,通过聚合诸如在新闻主持人镜头中的类似颜色分布或当产生新闻主持人镜头的时间来检测新闻主持人镜头。在所述方法中,具有类似于新闻主持人镜头的颜色分布的报告镜头可能被错误地检测为新闻主持人镜头,并且不能检测到意外出现的一个新闻主持人镜头。
技术实现思路
本专利技术提供了一种使用从活动图像分离的音频信号即使用新闻主持人的语音信息来检测新闻主持人镜头的方法。本专利技术也提供了一种使用从活动图像分离的音频信号、即使用新闻主持人的语音信息来检测新闻主持人镜头的装置。按照本专利技术的一个方面,提供了一种检测新闻主持人镜头的方法,所述方法包括将活动图像分离为音频信号和视频信号;使用视频信号来确定镜头之间的边界;使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分,并且将所提取的镜头确定为新闻主持人语音镜头。按照本专利技术的另一个方面,提供了一种检测新闻主持人镜头的装置,所述装置包括信号分离单元,用于将活动图像分离为音频信号和视频信号;边界确定单元,用于使用视频信号来确定镜头之间的边界;新闻主持人语音镜头提取单元,用于使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分,并且将所提取的镜头输出为新闻主持人语音镜头。附图说明通过参照附图详细说明本专利技术的示例实施例,本专利技术的上述和其他特点和优点将会变得更加清楚,其中图1是图解按照本专利技术的一个实施例的、用于检测新闻主持人镜头的方法的流程图;图2A和2B是用于说明图1的步骤14的波形图;图3是图解按照本专利技术的一个实施例的、图1的步骤16的流程图;图4是图解按照本专利技术的一个实施例的、图3的步骤34的流程图;图5示出了在步骤32选择的镜头中的一个镜头的结构;图6是图解按照本专利技术的一个实施例的、图4的步骤52的流程图;图7是示出帧的数量对能量的图;图8图解帧相对于能量的分布以理解图4的步骤54;图9示出了在步骤32中选择的镜头中的一个镜头的结构以理解图4的步骤56;图10A、10B、10C、10D和10E示出了在图1的步骤16中确定的新闻主持人语音镜头; 图11是图解按照本专利技术的一个实施例的、图1的步骤18的流程图;图12是图解按照本专利技术的一个实施例的、图11的步骤130的流程图;图13是图解按照本专利技术的一个实施例的、图11的步骤130的流程图;图14是图解按照本专利技术的一个实施例的、图13的步骤172的流程图;图15是图解按照本专利技术的一个实施例的、图11的步骤132的流程图;图16A-16E是用于理解图11的步骤132的视图;图17是图解按照本专利技术的另一个实施例的、图11的步骤132的流程图;图18是图解按照本专利技术的一个实施例的、图1的步骤20的流程图;图19A、19B和19C示出了通过将图10A-10E的新闻主持人语音镜头编组而确定的相似组;图20是图解按照本专利技术的另一个实施例的、用于检测新闻主持人镜头的方法的流程图;图21是图解按照本专利技术的一个实施例的、图20的步骤274的流程图;图22是按照本专利技术的一个实施例的、用于检测新闻主持人镜头的装置的方框图;图23是按照本专利技术的另一个实施例的、用于检测新闻主持人镜头的装置的方框图。具体实施例方式以下,参照附图来详细说明按照本专利技术的检测新闻主持人镜头的方法。图1是图解按照本专利技术的一个实施例的、用于检测新闻主持人镜头的方法的流程图。检测图1的新闻主持人镜头的方法包括获得在活动图像中的新闻主持人语音镜头(步骤10-16),获得在新闻主持人语音镜头中的新闻主持人语音模型(步骤18-24)。在步骤10中,将活动图像分离为音频信号和视频信号。以下,假定活动图像包括音频信号以及视频信号。在这种情况下,活动图像可以是通过MPEG格式压缩的数据。如果通过MPEG-1来压缩活动图像,则从活动图像分离的音频信号的频率可以是例如48kHz或44.1kHz,它对应于压密光盘(CD)的声音质量。为了执行步骤10,可以从活动图像提取原始(raw)脉冲编码调制(PCM)格式,并且可以将所提取的原始PCM格式确定为分离的音频信号。在步骤10后的步骤12,使用视频信号来确定镜头之间的边界。为此,当检测到其中具有活动图像中的较大改变的部分时,所检测的部分被确定为镜头之间的边界。可以检测活动图像的亮度、颜色数量和运动中至少一个的改变,并且可以将在检测结果中具有迅速改变的部分确定为镜头之间的边界。图2A和2B是用于说明图1的步骤14的波形图。图2A是分离的音频信号的波形图,图2B是下采样的音频信号的波形图。在步骤12后的步骤14,下采样音频信号。所分离的音频信号的大小太大,并且不必分析整个音频信号。因此,以诸如8kHz、12kHz或16kHz的下采样频率来下采样所分离的音频信号。在这种情况下,可以将下采样的结果存储为波形格式。在此,不像在图1中那样,可以在步骤12之前或与步骤12同时执行步骤14。如果通过MPEG-1标准来压缩活动图像,则所分离的音频信号的频率是48kHz并且以8kHz的频率来下采样分离的音频信号,则图2A所示的音频信号可以被下采样,如图2B所示。在步骤14后的步骤16,使用在步骤12获得的边界来从下采样的音频信号提取具有大于第一门限值TH1的长度的镜头和具有大于第二门限值TH2的长度的无声部分,并且将所提取的镜头确定为新闻主持人语音镜头(anchorperson speech shot)。所述新闻主持人语音镜头表示包括新闻主持人的语音的镜头,但是不限于此,并且可以是包括报告者的语音或对于用户有意义的声音的镜头。一般,新闻主持人镜头的长度相当长,大于10秒,并且在新闻主持人镜头结束的部分中存在一些无声部分,它是当新闻主持人镜头和报告镜头连续地存在时在新闻主持人镜头和报告镜头之间的边界。在步骤16,根据其特性来确定新闻主持人语音镜头。即,镜头的长度应当大于第一门限值TH1,具有大于第二门限值TH2的长度的无声部分应当存在于所述镜头结束的部分中,以便镜头可以是新闻主持人语音镜头,所述无声部分是镜头之间的边界。图1的检测新闻主持人镜头的方法可能不包括步骤14。在这种情况下,本文档来自技高网...

【技术保护点】
一种检测新闻主持人镜头的方法,所述方法包括:将活动图像分离为音频信号和视频信号; 使用视频信号来确定镜头之间的边界;以及使用所述边界来从音频信号提取具有大于第一门限值的长度的镜头和具有大于第二门限值的长度的无声部分, 并且将所提取的镜头确定为新闻主持人语音镜头。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:金相均黄斗善金智渊文永秀许永植
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1