【技术实现步骤摘要】
一种语言音频的检测系统及方法
本专利技术涉及语言信号处理
,特别涉及一种语言音频的检测系统及方法。
技术介绍
语音技术的实际应用环境通常非常复杂,系统接收到的音频中可能包含很多非目标语言的声音,比如不同语种的语音、音乐、自然噪声和人造噪声等。这些音频的存在会严重影响语音技术的可用性和用户体验。因此,采用技术手段高效地检测并过滤这些音频是非常有必要的。在这类技术中,最典型的是语种识别技术和噪声检测技术。其中,语种识别技术是利用语音中包含的音韵信息(比如特殊的发音单元,发音单元的不同分布或者组合方式等)来判断语言种类。现有技术中,最成熟的语种识别技术是基于音素识别的多音素语言模型技术该技术认为不同语种识别器产生的音素序列分布和组合是有各自不同规律的,因此利用不同语种识别器输出的音素识别序列在不同语种语言的音素语言模型上的分布概率进行语种识别。该技术具有较好的精度和通用型,但是其性能在短语音上会急剧下降,存在一定局限性。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种语言音频的检测系统及方法。所述技术方案如下:一方面,提供了一种语言音频的检测系统,所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块;其中,所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,分别对应不同的语言,用于对所述声学特征进行解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应 ...
【技术保护点】
一种语言音频的检测系统,其特征在于,所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块;其中,所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,所述一组识别器分别对应不同的语言,用于对所述声学特征进行并行语音识别解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在深度神经网络DNN模型上的后验概率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时间边界以及所 ...
【技术特征摘要】
2014.11.20 CN 20141066823581.一种语言音频的检测系统,其特征在于,所述系统包括:声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块;其中,所述声学特征提取模块用于提取输入语音信号的声学特征,所述声学特征至少包括输入音频的基频特征;所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成,所述一组识别器分别对应不同的语言,用于对所述声学特征进行并行语音识别解码,得到不同语言的最佳音素序列和对应的时间边界,所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界;所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在深度神经网络DNN模型上的后验概率,作为该音素序列的声学置信度,得到不同语言音素序列的声学置信度;所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界,分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率,作为该音素序列的语言置信度,得到不同语言音素序列的语言置信度;所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征,计算输入音频的韵律特征;所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语言置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。2.根据权利要求1所述的系统,其特征在于,所述一组识别器中每个识别器采用其对应语言的声学模型和语言模型,所述声学模型需要预先采用相应语言的语音数据进行训练,所述语言模型需要预先采用相应语言的文本数据进行训练。3.根据权利要求1所述的系统,其特征在于,所述音频的韵律特征包括句子级基音频率最大值,句子级基音频率最小值,句子级基音频率的方差,音素级基音频率方差的均值,音素级基音频率方差的方差,音素级基音频率方差的最大值和最小值之差,句子中有声段所占的比例,句子中无声音素的比例,句子中最大音素时长,句子中最小音素时长,句子中音素时长的均值,句子中音素时长的方差。4.根据权利要求1所...
【专利技术属性】
技术研发人员:王欢良,杨嵩,代大明,袁军峰,惠寅华,林远东,
申请(专利权)人:苏州驰声信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。