一种基于语音分类识别的新闻视频检索方法技术

技术编号:3633498 阅读:262 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于计算机语音识别及视频检索技术领域,具体涉及一种基于语音分类识别的新闻视频检索方法。现有技术中,在进行视频检索时,一般是从视频中提取出颜色、纹理等底层特征,然后根据这些特征进行视频检索,无法有效实现从文本到新闻视频的检索,应用非常不方便。本发明专利技术所述的方法是在新闻视频中自动分割出标准语音的所有语音片断;然后运用语音识别系统,对分割出的标准语音进行识别,由于新闻视频中的标准语音能够反映该视频的主要内容,因此很容易地实现从文本到视频的新闻检索。采用本发明专利技术所述的方法,可以实现自动识别新闻视频中的标准语音,有效实现从文本到视频的新闻检索,从而充分发挥音频分析和检索技术在信息检索中的巨大作用。

【技术实现步骤摘要】

本专利技术属于计算机语音识别及视频检索
,具体涉及。
技术介绍
目前,语音识别技术有着广泛的应用,它不仅可以应用于音频领域,而且在视频领域里也有着重要的应用,因为视频里也包含音频信息。如果能够通过语音识别技术识别出视频中的语音内容,则可以为视频检索提供有力的支持,实现从语音文本到视频内容的检索。现有的视频检索技术,一般是从视频中提取出颜色、纹理等底层特征,然后根据这些特征进行视频检索。但是,这种方法带来下列两个问题(1)人们在检索视频时,是根据人类的高级语义特征如足球比赛、伊拉克战争、禽流感等进行检索,这与计算机描述的视频底层特征如颜色、纹理等特征具有很大的矛盾,两者无法达到一致;(2)现有的视频检索方法不能很好实现由文字到视频的检索,查询方式也不适合人们惯用的方式,应用非常不方便。现有的视频检索方法是一般由用户向系统提交一个查询镜头或查询片断,然后系统返回与查询例子相似的结果,但是,与此同时带来的问题是用户如何得到查询例子?另外,大多数用户习惯的查询方式是输入查询文字,然后系统返回与查询文字相关的视频资料,例如,用户输入查询文字“伊拉克战争”,希望系统能够返回与“伊拉克战争”相关的视频资料,类似于目前的搜索引擎如google和百度等,但与这些搜索引擎不同的是,输入的是文字,检索的结果却是视频资料。为了实现上述从语音文本到视频内容的检索,需要得到视频中的文字信息,而为了得到视频中的文字信息,一个可行的方法是使用语音识别技术,识别出视频中的语音文字。但是,现有的语音识别系统,为了识别不同人的语音,往往需要先由说话人对语音识别系统进行训练,然后再由语音识别系统识别说话人的语音。这种方法对于包括多人的语音片断,难于应用,因为很难找到每一个人对语音识别系统进行训练,即使少数人的语音片断,经常也无法找到说话人进行语音训练,例如对于新闻视频的语音识别,是不可能找到每个说话人进行语音训练的;另外,即使经过语音训练,对非标准语音,依然很难识别,识别率非常低。但是,如果不经过语音训练,直接使用语音识别系统对新闻视频进行语音识别,那么识别效果会更差,识别率更低,因为视频的新闻节目通常包括了下列各种声音(1)带音乐背景的新闻节目预告;(2)广告;(3)天气预报;(4)非标准语音,如被采访人的方言等;(5)标准语音。上述几种语音中,非标准语音的识别率非常低,而(1)-(3)的识别率更低,基本不能识别。因此,如果直接使用语音识别系统不加区分地对整个新闻视频进行语音识别,这样带来的结果是语音识别系统对新闻视频所包含的各种声音均进行识别,最后导致语音识别的结果中包括了正确的识别结果(主要是对上述5中的标准语音的识别)和错误的识别结果(主要是对上述1至4中的其他语音的识别),而计算机无法知道哪些是正确结果,哪些是错误结果,因此,以此进行视频检索时,如查询文字“伊拉克战争”对应的视频,则会出现很多错误的结果。
技术实现思路
针对现有技术的不足,本专利技术的目的是提出,该方法能够实现不需说话人训练即能自动识别新闻视频中的标准普通话等标准语音,从而实现从文本到视频的新闻检索。为达到以上目的,本专利技术采用的技术方案是,包括以下步骤(1)运用声音分类器,分割出新闻视频中标准语音的语音片断,所述的标准语音是指发音标准的语音;(2)采用语音识别系统识别出新闻视频中标准语音的语音片断,转化为文本内容;(3)根据步骤(2)得到的文本内容,进行相应视频资料的检索,实现从语音文本到新闻视频的检索。进一步,本专利技术所述的标准语音最好是发音标准的普通话。进一步,步骤(1)中,音频分类采用了基于支持向量机的分类模型,分为两部分分类器模型训练和分类预测;音频特征采用的是对数能量(logenergy)和梅尔倒频谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)组成的13维特征向量。再进一步,为使本专利技术具有更好的效果,步骤(1)中,分类器模型训练的过程是首先选择训练样本,然后提取每一个样本的对数能量和梅尔倒频谱系数组成的音频特征,并将所有这些特征写入一个特征文件中,然后利用支持向量机生成分类器模型。训练样本包含下列5类1)标准语音;2)音乐;3)背景噪声;4)无声;5)非标准语音;分类以帧为单位,给每个音频帧赋值一个相应的类别,训练样本的类别标注也是以帧为单位,利用标注好的类别进行模型训练。再进一步,为使本专利技术具有更好的效果,步骤(1)中,分类预测的过程是对于要进行分类的新闻视频,提取新闻音频的对数能量和梅尔倒频谱系数组成的音频特征,然后利用支持向量机训练出来的分类器模型进行自动分类标注。再进一步,为使本专利技术具有更好的效果,步骤(1)中,对初步分割出的新闻视频中标准语音的语音片断进行修正处理即在分类结果中如果在连续相同类别的帧中突然出现独立的一个或者M个不同类别的帧,M为正整数,则将这些帧判断成错误识别的帧,并将这些孤立帧修正为连续同类别的帧。这是因为连续相同类别的帧中,不可能零星出现极少数其它类别的帧,所以此时可以将这些帧判断成错误识别的帧,并将这些孤立帧修正为连续同类别的帧。再更进一步,为使本专利技术具有更好的效果对初步分割出的新闻视频中标准普通话的语音片断进行修正处理时,在实际应用中,选择M小于或等于10,即如果一段连续同类别的音频中间出现了小于或等于10帧是不同类别的,则判断这些帧是错误识别的帧。本专利技术的效果在于与现有方法相比,本专利技术可以实现不需说话人训练即能自动识别新闻视频中的标准语音,从而得到反映新闻视频的最主要的文本内容,然后通过文本内容实现从文本到视频的新闻检索,从而充分发挥音频分析和检索技术在信息检索中的巨大作用。本专利技术之所以具有上述专利技术效果,其原因在于新闻视频中播音员的标准发音,可以反映该新闻视频的最主要内容;而现有的语音识别系统,可以不需说话人训练即可较好识别标准语音,因此,本专利技术首先在新闻视频中,自动分割出标准语音的所有语音片断;然后运用语音识别系统,对分割出的标准语音进行识别,得到反映新闻视频的最主要文本内容,从而实现从文本到视频的新闻检索。附图说明图1是本专利技术的流程示意图。具体实施例方式下面结合附图和具体实施例对本专利技术作进一步详细的描述。如图1所示,,包括以下步骤(1)运用声音分类器,分割出新闻视频中标准语音的语音片断,本实施例中的标准语音以标准普通话为例加以说明;音频分类采用了基于支持向量机的分类模型,分为两部分分类器模型训练和分类预测。音频特征采用的是对数能量(log energy)和梅尔倒频谱系数(MFCC)组成的13维特征向量。本实施例中,分类器模型训练的过程是首先选择训练样本,然后提取每一个样本的对数能量和梅尔倒频谱系数组成的音频特征,并将所有这些特征写入一个特征文件中,然后利用支持向量机生成分类器模型。训练样本包含下列5类1)标准普通话;2)音乐;3)背景噪声;4)无声;5)非标准普通话。分类以帧为单位,给每个音频帧赋值一个相应的类别,训练样本的类别标注也是以帧为单位,但是因为每个音频帧的时间长度为23毫秒(采样频率22050赫兹,音框包含512个采样点),不可能在这个时间长度上进行准确的手工类别标注,因此本专利技术是选择一段音频,以人耳进行判断,这段音频中的内容属于一个本文档来自技高网
...

【技术保护点】
一种基于语音分类识别的新闻视频检索方法,包括以下步骤:(1)运用声音分类器,分割出新闻视频中标准语音的语音片断,所述的标准语音是指发音标准的语音;(2)采用语音识别系统识别出新闻视频中标准语音的语音片断,转化为文本内容; (3)根据步骤(2)得到的文本内容,进行相应视频资料的检索,实现从语音文本到新闻视频的检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:彭宇新房翠华陈晓鸥吴於茜
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利