一种语言音频的检测系统及方法技术方案

技术编号:11540251 阅读:61 留言:0更新日期:2015-06-03 14:22
本发明专利技术公开了一种语言音频的检测系统及方法,属于语言信号处理技术领域。所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块。本发明专利技术通过综合利用声学置信度、语言置信度和韵律特征信息,系统的检测性能获得显著提高,适用于不同长度的音频检测,具有很好的检测稳定性,可以处理多种非目标语言音频和噪声音频,具有很好的实用性,可以根据非目标语言的类型进行快速扩展,只需要提供新语种的声学模型和语言模型,然后重新训练分类器模型就可以,具有较好的系统结构的灵活性和可扩展性。

【技术实现步骤摘要】
一种语言音频的检测系统及方法
本专利技术涉及语言信号处理
,特别涉及一种语言音频的检测系统及方法。
技术介绍
语音技术的实际应用环境通常非常复杂,系统接收到的音频中可能包含很多非目标语言的声音,比如不同语种的语音、音乐、自然噪声和人造噪声等。这些音频的存在会严重影响语音技术的可用性和用户体验。因此,采用技术手段高效地检测并过滤这些音频是非常有必要的。在这类技术中,最典型的是语种识别技术和噪声检测技术。其中,语种识别技术是利用语音中包含的音韵信息(比如特殊的发音单元,发音单元的不同分布或者组合方式等)来判断语言种类。现有技术中,最成熟的语种识别技术是基于音素识别的多音素语言模型技术该技术认为不同语种识别器产生的音素序列分布和组合是有各自不同规律的,因此利用不同语种识别器输出的音素识别序列在不同语种语言的音素语言模型上的分布概率进行语种识别。该技术具有较好的精度和通用型,但是其性能在短语音上会急剧下降,存在一定局限性。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种语言音频的检测系统及方法。所述技术方案如下:一方面,提供了一种语言音频的检测系统,所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块;其中,所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,分别对应不同的语言,用于对所述声学特征进行解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在DNN模型上的后验概率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。可选地,所述一组识别器中每个识别器采用其对应语言的声学模型和语言模型,所述声学模型需要预先采用相应语言的语音数据进行训练,所述语言模型需要预先采用相应语言的文本数据进行训练。可选地,所述预先训练好的分类器需要预先采用收集并标注的大量数据训练。可选地,所述音频的韵律特征包括句子级基音频率最大值,句子级基音频率最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音频率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段所占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素时长,句子中音素时长的均值,句子中音素时长的方差。可选地,分类判别模块还用于将所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成一个超向量,送入预先训练好的分类器进行预测分类,计算该超向量的得分,如果该得分大于给定阈值,则确定输入语言音频为目标语言音频,否则确定为非目标语言音频。另一方面,提供了一种语言音频的检测方法,所述方法包括:提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;对所述声学特征进行解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在DNN模型上的后验概率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。可选地,所述预先训练好的分类器需要预先采用收集并标注的大量数据训练。可选地,所述音频的韵律特征包括句子级基音频率最大值,句子级基音频率最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音频率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段所占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素时长,句子中音素时长的均值,句子中音素时长的方差。可选地,利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类包括:将所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成一个超向量,送入预先训练好的分类器进行预测分类,计算该超向量的得分,如果该得分大于给定阈值,则确定输入语言音频为目标语言音频,否则确定为非目标语言音频。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术所提供的方法,通过综合利用声学置信度、语言置信度和韵律特征信息,系统的检测性能获得显著提高,适用于不同长度的音频检测,具有很好的检测稳定性,可以处理多种非目标语言音频和噪声音频,具有很好的实用性,可以根据非目标语言的类型进行快速扩展,只需要提供新语种的声学模型和语言模型,然后重新训练分类器模型就可以,具有较好的系统结构的灵活性和可扩展性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的语言音频检测系统结构示意图;图2是本专利技术实施例提供的语言音频检测方法流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1是本专利技术实施例提供的语言音频的检测系统结构示意图。参见图1,该系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块。其中,该声学特征提取模块用于提取输入语音信号的声学特征,该声学特征至少包括输入音频的基频特征;其中,该声学特征可以包括:plp(感知线性预测)特征,mfcc(mel频率倒谱系数)特征,fbank特征等。该音素识别模块由至少包括目标语言对应识别器的一组识别器组成,分别对应不同的语言,用于对该声学特征进行解码,得到不同语言的最佳音素序列和对应的时间边界,该不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;在本专利技术实施本文档来自技高网...

【技术保护点】
一种语言音频的检测系统,其特征在于,所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块;其中,所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,所述一组识别器分别对应不同的语言,用于对所述声学特征进行并行语音识别解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在深度神经网络DNN模型上的后验概率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。...

【技术特征摘要】
2014.11.20 CN 20141066823581.一种语言音频的检测系统,其特征在于,所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块;其中,所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,所述一组识别器分别对应不同的语言,用于对所述声学特征进行并行语音识别解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在深度神经网络DNN模型上的后验概率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。2.根据权利要求1所述的系统,其特征在于,所述一组识别器中每个识别器采用其对应语言的声学模型和语言模型,所述声学模型需要预先采用相应语言的语音数据进行训练,所述语言模型需要预先采用相应语言的文本数据进行训练。3.根据权利要求1所述的系统,其特征在于,所述音频的韵律特征包括句子级基音频率最大值,句子级基音频率最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音频率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段所占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素时长,句子中音素时长的均值,句子中音素时长的方差。4.根据权利要求1所...

【专利技术属性】
技术研发人员:王欢良杨嵩代大明袁军峰惠寅华林远东
申请(专利权)人:苏州驰声信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1