语种无关的关键词识别方法及系统技术方案

技术编号:9643099 阅读:158 留言:0更新日期:2014-02-07 02:31
本发明专利技术公开了一种语种无关的关键词识别方法及系统,该方法包括:接收待检测语音信号;根据预先构建的解码网络对所述语音信号解码,得到候选关键词;采用不同方式对所述候选关键词进行置信度评价;对不同方式的置信度评价结果进行融合,得到所述候选关键词的有效置信度;根据所述有效置信度确定输出的关键词。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种语种无关的关键词识别方法及系统,该方法包括:接收待检测语音信号;根据预先构建的解码网络对所述语音信号解码,得到候选关键词;采用不同方式对所述候选关键词进行置信度评价;对不同方式的置信度评价结果进行融合,得到所述候选关键词的有效置信度;根据所述有效置信度确定输出的关键词。【专利说明】语种无关的关键词识别方法及系统
本专利技术涉及语音关键词识别
,具体涉及一种语种无关的关键词识别方法及系统。
技术介绍
语音关键词识别是指从给定的语音文件或数据中,判断该语音数据是否包含了某个特定的关键词,以及确定该关键词出现的位置信息等。目前主流的语音关键词识别主要基于语音识别技术,首先采用和该语音语种相关的语音识别器识别出语音所包含的文本内容,随后从所述文本内容中检索特定关键词文本及出现的位置信息等。在这种方法中,用户能够比较方便地定义新的关键词,具有较好的扩展性。然而由于语音识别器的开发训练需要构建相应语种的声学模型和语言模型,因此在向其它语种推广时或因缺乏标注训练数据而无法实施。近年来,公共安全领域对某些小语种或方言语种进行关键词检索的需求日益迫切。考虑到特定语种熟悉人员相对有限,缺乏标注数据,无法快速开发相应语音识别器,进而无法利用传统语音关键词识别系统和方法进行关键词检索。对此,研究人员提出了语种无关关键词识别应用,根据已有标注的关键词发音样本构建关键词模型,快速搭建语音关键词识别系统,灵活方便。目前在语种无关关键词识别中,最常见的是基于DTM (Dynamic Time Warping,动态时间规整)的方法以及基于关键词统计模型/Filler模型的解码方法(HMM/Filler)。前者首先提取关键词的语音特征序列,并和待检索的语音信号特征逐段进行语音特征比较,获取相似的语音段。该算法运算复杂度高,且难以有效地综合多个关键词样本特征,检索效果不甚理想,在连续语音关键词识别中难以有效推广。而基于关键词统计模型/Filler模型的方法主要是通过对关键词建立统计模型及对非关键词建立Filler模型,一方面通过模型建模的方法将关键词多个样本有效地结合起来,另一方面借助Viterbi解码等动态搜索算法,确定待检测语音在所述模型构建的搜索网络中的最优路径,确定关键词位置信息。这种方法在训练数据覆盖充分,或者说检测环境和训练环境一致的情况下往往能取得较好的识别结果。然而在实际应用中,待检测语音数据由于噪声复杂性和口音、信道的多变性,导致检索出来的关键词往往不是真实的关键词,即虚警率较高,从而影响系统性能。
技术实现思路
本专利技术实施例提供一种语种无关的关键词识别方法及系统,以降低关键词识别的虚警率,提高系统性能。为此,本专利技术提供如下技术方案:—种语种无关的关键词识别方法,包括:接收待检测语音信号;根据预先构建的解码网络对所述语音信号解码,得到候选关键词;采用不同方式对所述候选关键词进行置信度评价;对不同方式的置信度评价结果进行融合,得到所述候选关键词的有效置信度;根据所述有效置信度确定输出的关键词。优选地,所述采用不同方式对所述候选关键词进行置信度评价包括:基于对数似然比计算所述候选关键词的置信度;还包括:基于《Vector相关度计算所述候选关键词的置信度,和/或基于状态帧方差得分计算所述候选关键词的置信度。优选地,所述基于《Vector相关度计算所述候选关键词的置信度包括:训练通用背景模型;根据关键词训练样本语音片段和所述通用背景模型,训练得到关键词GMM模型;根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段,然后根据所述候选关键词的语音片段和所述通用背景模型,训练得到候选关键词GMM模型;计算关键词GMM模型和候选关键词GMM模型之间的KL距离,并将所述KL距离作为所述候选关键词的置信度。优选地,所述基于《Vector相关度计算所述候选关键词的置信度包括:训练通用背景模型;计算关键词训练样本语音片段在所述通用背景模型上的各高斯分量似然度,组成关键词发音模型;根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段,然后计算所述语音片段在所述通用背景模型上各高斯分量似然度,组成候选关键词发音模型;计算关键词发音模型和候选关键词发音模型之间的相关度,并将所述相关度作为所述候选关键词的置信度。优选地,所述基于状态帧方差得分计算所述候选关键词的置信度包括:获取所述候选关键词对应的语音段;在关键词模型上进行强制切分,得到各状态上包含所述语音段的语音帧数量;根据各状态上语音帧数量,统计语音帧的方差作为所述候选关键词的置信度。优选地,所述基于状态帧方差得分计算所述候选关键词的置信度包括:获取所述候选关键词对应的语音段及在关键词模型上各状态上的语音帧;统计各状态上的语音帧的样本方差;综合各状态上的语音帧的样本方差获得整体状态样本方差,并将所述整体状态样本方差作为所述候选关键词的置信度。一种语种无关的关键词识别系统,包括:接收模块,用于接收待检测语音信号;解码模块,用于根据预先构建的解码网络对所述语音信号解码,得到候选关键词;置信度评价模块,用于采用不同方式对所述候选关键词进行置信度评价;融合模块,用于对不同方式的置信度评价结果进行融合,得到所述候选关键词的有效置信度;输出模块,用于根据所述有效置信度确定输出的关键词。优选地,所述置信度评价模块包括:第一评价模块,用于基于对数似然比计算所述候选关键词的置信度;所述置信度评价模块还包括:第二评价模块,用于基于《Vector相关度计算所述候选关键词的置信度;和/或第三评价模块,用于基于状态帧方差得分计算所述候选关键词的置信度。优选地,所述第二评价模块包括:背景模型训练单元,用于训练通用背景模型;关键词模型训练单元,用于根据关键词训练样本语音片段和所述通用背景模型,训练得到关键词GMM模型;候选关键词模型训练单元,用于根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段,然后根据所述候选关键词的语音片段和所述通用背景模型,训练得到候选关键词GMM模型;距离计算单元,有于计算关键词GMM模型和候选关键词GMM模型之间的KL距离,并将所述KL距离作为所述候选关键词的置信度。优选地,所述第二评价模块包括:背景模型训练单元,用于训练通用背景模型;关键词发音模型构建单元,用于计算关键词训练样本语音片段在所述通用背景模型上的各高斯分量似然度,组成关键词发音模型;候选关键词发音模型构建单元,用于根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段,然后计算所述语音片段在所述通用背景模型上各高斯分量似然度,组成候选关键词发音模型;相关度计算单元,用于计算关键词发音模型和候选关键词发音模型之间的相关度,并将所述相关度作为所述候选关键词的置信度。优选地,所述第三评价模块包括:语音段获取单元,用于获取所述候选关键词对应的语音段;切分单元,用于在关键词模型上进行强制切分,得到各状态上包含所述语音段的语音帧数量;语音帧方差统计单元,用于根据各状态上语音帧数量,统计语音帧的方差作为所述候选关键词的置信度。优选地,所述第三评价模块包括:语音帧获取单元,用于获取所述候选关键词对应的语音段及在关键词模型上各状态上的语音帧;本文档来自技高网
...

【技术保护点】
一种语种无关的关键词识别方法,其特征在于,包括:接收待检测语音信号;根据预先构建的解码网络对所述语音信号解码,得到候选关键词;采用不同方式对所述候选关键词进行置信度评价;对不同方式的置信度评价结果进行融合,得到所述候选关键词的有效置信度;根据所述有效置信度确定输出的关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘俊华魏思胡国平胡郁
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1