一种混杂语种分类识别方法、装置、存储介质及终端设备制造方法及图纸

技术编号：36608346 阅读：39 留言：0更新日期：2023-02-04 18:34

本发明专利技术公开了一种混杂语种分类识别方法、装置、存储介质及终端设备，混杂语种分类识别方法包括如下步骤：判断每帧待识别音频信号是否为语音帧；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入到多语种语音识别模型后，提取Conformer层的输出特征；将Conformer层的输出特征作为每帧对应的BN特征输入多语种分类模型中，得到最终的语种分类预测结果；本发明专利技术通过将待识别音频提取Fbank特征后输入到多语种语音识别模型获得Conformer层的输出特征，将Conformer层的输出特征作为BN特征输入多语种分类模型中预测出语种的分类，不被噪声干扰，快速预测出语种分类，提高语音评测的精准性。音评测的精准性。音评测的精准性。

全部详细技术资料下载

【技术实现步骤摘要】
一种混杂语种分类识别方法、装置、存储介质及终端设备

[0001]本专利技术属于语种分类识别领域，尤其涉及一种混杂语种分类识别方法、装置、存储介质及终端设备。

技术介绍

[0002]目前，语音评测系统的流程如下：首先进行前处理，然后通过语种分类器进行语种分类，最后通过评测分类器进行评测分类。
[0003]语音评测涉及多种题型，如段落朗读，口头翻译，以及开放式表达等，对于非母语表达者表达能力较弱时，时常会表现出母语与目标语言的混杂情况，而由于评测系统中语种分类器的分类方法通常是由单一目标语种数据训练实现，这就会在对目标语言评测时引入语种噪声，由于不同语种音素间的相似性，语种噪声很难被单一语种数据训练的评测模型识别，恶化性能，进而导致语音评测的不准确。

技术实现思路

[0004]本专利技术目的是为了克服现有技术的不足而提供一种实现对混杂语种进行快速精准的语种分类识别预测，便于后续进行语音评测的混杂语种分类识别方法、装置、存储介质及终端设备。
[0005]为达到上述目的，本专利技术采用的技术方案是：一...

【技术保护点】

【技术特征摘要】
1.一种混杂语种分类识别方法，其特征在于，包括如下步骤：判断每帧待识别音频信号是否为语音帧；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入到多语种语音识别模型后，提取Conformer层的输出特征；将Conformer层的输出特征作为每帧对应的BN特征输入多语种分类模型中，得到最终的语种分类预测结果。2.如权利要求1所述的混杂语种分类识别方法，其特征在于，所述多语种语音识别模型基于如下训练方法获取：获取训练样本，训练样本为音频及其对应的参考文本；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入Conformer结构中获得BN特征；利用全连接层和CTC对多语种语音识别模型的参数进行更新优化。3.如权利要求1所述的混杂语种分类识别方法，其特征在于，所述多语种分类模型的基于如下训练方法获取：获取训练样本，训练样本为音频及其对应的语种类别标签；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入到多语种语音识别模型后，提取Conformer层的输出特征；将Conformer层的输出特征作为每帧对应的BN特征；将T*N的BN特征输入到3个连续TDNN block中，每个TDNN block输出T*M的特征，将3个T*M的特征拼接得到T*(3*M)的特征，再经过FC层，RELU层和BatchNorm层，输出T*M的特征F，其中，T为帧数，N为输入特征维数；将T*M的特征F输入到Pooling中，计算T帧的均值和方差，将均值和方差拼接，得到1*(2*M)的特征；将1*(2*M)的特征输入到FC层和softmax层，获得1
×
C的语种类别预测向量...

【专利技术属性】
技术研发人员：薛文韬，孙暐，
申请(专利权)人：苏州驰声信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人