音素识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39289168 阅读：8 留言：0更新日期：2023-11-07 10:58

本申请实施例提供了一种音素识别方法、装置、电子设备及存储介质。该方法包括：获取目标声纹特征及待识别音频；将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，第一样本音频为单用户发音的音频，第二样本音频为多用户发音的音频，进行音素识别的过程包括：对待识别音频进行特征提取，得到待识别音频的音频特征；基于目标声纹特征对音频特征进行去噪处理，得到待识别音频的语音声学特征；对语音声学特征进行音素识别，得到语音声学特征对应的音素识别结果。通过采用上述方法，实现在多人用户发音的情况下准确识别目标用户的音频对应的音素。应的音素。应的音素。

全部详细技术资料下载

【技术实现步骤摘要】
音素识别方法、装置、电子设备及存储介质

[0001]本申请涉及语音处理和机器学习
，更具体地，涉及一种音素识别方法、装置、电子设备及存储介质。

技术介绍

[0002]语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。音素是根据语音的自然属性划分出来的最小语音单位，目前语音识别具有复杂的处理流程，主要包括模型训练、解码网络构建以及解码等过程，其包括了对音素识别的具体过程。
[0003]目前，语音命令识别技术是自动语音识别技术的一项具体应用，其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备，只要说出命令词的语音，则语音命令识别系统会自动识别出该语音对应的字符串。此外，如果该字符串为命令词对应的字符串，则可能触发对应的操作。例如，目前的语音唤醒系统就是一种典型的利用语音识别的系统，用户可以说出唤醒命令，系统识别用户说出的语音对应的声纹是否为指定声纹，若是则识别语音是否包括唤醒命令，如果识别出包括唤醒命令则唤醒(即启动)对应的设备，否则不唤醒对应的设备。
[0004]但是，对于有多用户同时发音的情况下，系统在识别目标用户的语音执行唤醒操作时，由于多个用户同时发音，会对目标用户的音频造成影响，进而会影响后续识别到的语音对应识别结果的准确性，从而无法唤醒系统，或者造成异常唤醒，基于此，提出一种能够在多用户同时发音的情况下，准确识别目标用户的语音是亟待解决的技术问题。

技术实现思路

[0005]有鉴于此，本申请实施例提出了一种音素识别方法、装置、电子设备及存储介质...

【技术保护点】

【技术特征摘要】
1.一种音素识别方法，其特征在于，所述方法包括：获取目标声纹特征及待识别音频；将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果，其中，所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到，所述第一样本音频为单用户发音的音频，所述第二样本音频为多用户发音的音频，所述进行音素识别的过程包括：对所述待识别音频进行特征提取，得到所述待识别音频的音频特征；基于目标声纹特征对所述音频特征进行去噪处理，得到所述待识别音频的语音声学特征；对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果。2.根据权利要求1所述的方法，其特征在于，所述音素识别模型包括基础模型和蒸馏模型，所述基础模型的数据维度高于所述蒸馏模型的数据维度，所述将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果之前，所述方法还包括：获取第一样本音频和第二样本音频；基于所述第一样本音频训练所述基础模型，获得所述基础模型训练过程中的第一损失值，基于所述第二样本音频训练所述蒸馏模型，获得所述蒸馏模型训练过程中的第二损失值；基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数，得到训练后的音素识别模型。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数，得到训练后的音素识别模型，包括：对所述第一损失值和所述第二损失值进行加权求和得到目标损失值；基于所述目标损失值分别调整所述基础模型和所述蒸馏模型的模型参数，以使所述音素识别模型收敛，得到训练后的音素识别模型。4.根据权利要求2所述的方法，其特征在于，所述获取第一样本音频，包括：获取在噪音强度低于第一预设值的环境下单用户发音的音频，作为所述第一样本音频。5.根据权利要求2所述的方法，其特征在于，所述对所述待识别音频进行特征提取，得到所述待识别音频的音频特征，包括：将所述待识别音频输入至训练后的蒸馏模型包括的语音编码器中，利用所述语音编码器的浅层特征提取层对所述待识别音频进行离散量化处理，得到待识别音频包括的多帧语音；利用所述语音编码器的深层特征提取层对所述待识别音频中每帧语音进行特征提取，得到所述待识别音频中每帧语音对应的音频特征。6.根据权利要求2所述的方法，其特征在于，所述对所述语音声学特征进行音素识别，得到所述语音声学特征对应的音素识别结果，包括：利用训练后的蒸馏模型的输出层中分类...

【专利技术属性】
技术研发人员：林炳怀，王丽园，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人