音素识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39289168 阅读:8 留言:0更新日期:2023-11-07 10:58
本申请实施例提供了一种音素识别方法、装置、电子设备及存储介质。该方法包括:获取目标声纹特征及待识别音频;将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果,其中,训练后的音素识别模型基于第一样本音频和第二样本音频训练得到,第一样本音频为单用户发音的音频,第二样本音频为多用户发音的音频,进行音素识别的过程包括:对待识别音频进行特征提取,得到待识别音频的音频特征;基于目标声纹特征对音频特征进行去噪处理,得到待识别音频的语音声学特征;对语音声学特征进行音素识别,得到语音声学特征对应的音素识别结果。通过采用上述方法,实现在多人用户发音的情况下准确识别目标用户的音频对应的音素。应的音素。应的音素。

【技术实现步骤摘要】
音素识别方法、装置、电子设备及存储介质


[0001]本申请涉及语音处理和机器学习
,更具体地,涉及一种音素识别方法、装置、电子设备及存储介质。

技术介绍

[0002]语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。音素是根据语音的自然属性划分出来的最小语音单位,目前语音识别具有复杂的处理流程,主要包括模型训练、解码网络构建以及解码等过程,其包括了对音素识别的具体过程。
[0003]目前,语音命令识别技术是自动语音识别技术的一项具体应用,其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备,只要说出命令词的语音,则语音命令识别系统会自动识别出该语音对应的字符串。此外,如果该字符串为命令词对应的字符串,则可能触发对应的操作。例如,目前的语音唤醒系统就是一种典型的利用语音识别的系统,用户可以说出唤醒命令,系统识别用户说出的语音对应的声纹是否为指定声纹,若是则识别语音是否包括唤醒命令,如果识别出包括唤醒命令则唤醒(即启动)对应的设备,否则不唤醒对应的设备。
[0004]但是,对于有多用户同时发音的情况下,系统在识别目标用户的语音执行唤醒操作时,由于多个用户同时发音,会对目标用户的音频造成影响,进而会影响后续识别到的语音对应识别结果的准确性,从而无法唤醒系统,或者造成异常唤醒,基于此,提出一种能够在多用户同时发音的情况下,准确识别目标用户的语音是亟待解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请实施例提出了一种音素识别方法、装置、电子设备及存储介质,可以利用更准确的音素识别模型对目标用户对应的音素进行识别,从而提高音素识别的准确性。
[0006]第一方面,本申请实施例提供了一种音素识别方法,方法包括:获取目标声纹特征及待识别音频;将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果,其中,所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到,所述第一样本音频为单用户发音的音频,所述第二样本音频为多用户发音的音频,所述进行音素识别的过程包括:对所述待识别音频进行特征提取,得到所述待识别音频的音频特征;基于目标声纹特征对所述音频特征进行去噪处理,得到所述待识别音频的语音声学特征;对所述语音声学特征进行音素识别,得到所述语音声学特征对应的音素识别结果。
[0007]第二方面,本申请实施例提供了一种音素识别装置,所述装置包括:第一获取模块,用于获取目标声纹特征及待识别音频;音素识别模块,用于将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果,其中,所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到,所述第一样本音频为单用户发音的音频,所
述第二样本音频为多用户发音的音频,所述音素识别模块包括:特征提取子模块、去噪处理子模块以及音素识别子模块。特征提取子模块,用于对所述待识别音频进行特征提取,得到所述待识别音频的音频特征;去噪处理子模块,用于基于目标声纹特征对所述音频特征进行去噪处理,得到所述待识别音频的语音声学特征;音素识别子模块,用于对所述语音声学特征进行音素识别,得到所述语音声学特征对应的音素识别结果。
[0008]在一种可实施方式中,所述音素识别模型包括基础模型和蒸馏模型,所述基础模型的数据维度高于所述蒸馏模型的数据维度,装置还包括第二获取模块、损失获得模块以及模型训练模块。第二获取模块,用于获取第一样本音频和第二样本音频;损失获得模块,用于基于所述第一样本音频训练所述基础模型,获得所述基础模型训练过程中的第一损失值,基于所述第二样本音频训练所述蒸馏模型,获得所述蒸馏模型训练过程中的第二损失值;模型训练模块,用于基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数,得到训练后的音素识别模型。
[0009]在一种可实施方式中,所述模型训练模块包括:损失计算子模块和模型训练子模块,损失计算子模块,用于对所述第一损失值和所述第二损失值进行加权求和得到目标损失值;模型训练子模块,用于基于所述目标损失值分别调整所述基础模型和所述蒸馏模型的模型参数,以使所述音素识别模型收敛,得到训练后的音素识别模型。
[0010]在一种可实施方式中,所述第二获取模块,还用于获取在噪音强度低于第一预设值的环境下单用户发音的音频,作为所述第一样本音频。
[0011]在一种可实施方式中,特征提取子模块,还用于将所述待识别音频输入至训练后的蒸馏模型包括的语音编码器中,利用所述语音编码器的浅层特征提取层对所述待识别音频进行离散量化处理,得到待识别音频包括的多帧语音;利用所述语音编码器的深层特征提取层对所述待识别音频中每帧语音进行特征提取,得到所述待识别音频中每帧语音对应的音频特征。
[0012]在一种可实施方式中,所述音素识别子模块,还用于利用训练后的蒸馏模型的输出层中分类函数计算所述语音声学特征为每个音素的概率;基于所述声学特征为每个音素的概率,确定所述声学特征对应的音素识别结果。
[0013]在一种可实施方式中,去噪处理子模块包括特征拼接单元、非线性变化处理单元以及去噪处理单元。特征拼接单元,用于将所述目标声纹特征与所述音频特征进行拼接,得到拼接后的特征;非线性变化处理单元,用于对拼接后的特征进行非线性变化处理,得到所述待识别音频的掩码表示特征;去噪处理单元,用于将所述待识别音频的掩码表示特征与所述音频特征相乘,得到所述待识别音频的语音声学特征。
[0014]在一种可实施方式中,非线性变化处理单元,还用于利用训练后的音素识别模型中的激活函数对所述拼接后的特征进行非线性变化处理,得到所述待识别音频的掩码表示特征。
[0015]在一种可实施方式中,第一获取模块,包括音频获取子模块和声纹识别子模块。音频获取子模块,用于获取在噪音强度低于第二预设值时目标用户的音频;声纹识别子模块,用于对所述目标用户的音频进行声纹特征识别,得到目标声纹特征。
[0016]第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。
[0017]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的方法。
[0018]第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
[0019]本申请实施例提供的一种音素识别方法、装置、电子设备及存储介质,方法包括:获取目标声纹特征及待识别音频;将待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果,其中,训练后的音素识别模型基于第一样本音频和第二样本音频训练得到,第一样本音频为单用户发音的音频,第二样本音频为多用户发音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音素识别方法,其特征在于,所述方法包括:获取目标声纹特征及待识别音频;将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果,其中,所述训练后的音素识别模型基于第一样本音频和第二样本音频训练得到,所述第一样本音频为单用户发音的音频,所述第二样本音频为多用户发音的音频,所述进行音素识别的过程包括:对所述待识别音频进行特征提取,得到所述待识别音频的音频特征;基于目标声纹特征对所述音频特征进行去噪处理,得到所述待识别音频的语音声学特征;对所述语音声学特征进行音素识别,得到所述语音声学特征对应的音素识别结果。2.根据权利要求1所述的方法,其特征在于,所述音素识别模型包括基础模型和蒸馏模型,所述基础模型的数据维度高于所述蒸馏模型的数据维度,所述将所述待识别音频输入至训练后的音素识别模型进行音素识别得到音素识别结果之前,所述方法还包括:获取第一样本音频和第二样本音频;基于所述第一样本音频训练所述基础模型,获得所述基础模型训练过程中的第一损失值,基于所述第二样本音频训练所述蒸馏模型,获得所述蒸馏模型训练过程中的第二损失值;基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数,得到训练后的音素识别模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一损失值和所述第二损失值分别调整所述基础模型的模型参数和所述蒸馏模型的模型参数,得到训练后的音素识别模型,包括:对所述第一损失值和所述第二损失值进行加权求和得到目标损失值;基于所述目标损失值分别调整所述基础模型和所述蒸馏模型的模型参数,以使所述音素识别模型收敛,得到训练后的音素识别模型。4.根据权利要求2所述的方法,其特征在于,所述获取第一样本音频,包括:获取在噪音强度低于第一预设值的环境下单用户发音的音频,作为所述第一样本音频。5.根据权利要求2所述的方法,其特征在于,所述对所述待识别音频进行特征提取,得到所述待识别音频的音频特征,包括:将所述待识别音频输入至训练后的蒸馏模型包括的语音编码器中,利用所述语音编码器的浅层特征提取层对所述待识别音频进行离散量化处理,得到待识别音频包括的多帧语音;利用所述语音编码器的深层特征提取层对所述待识别音频中每帧语音进行特征提取,得到所述待识别音频中每帧语音对应的音频特征。6.根据权利要求2所述的方法,其特征在于,所述对所述语音声学特征进行音素识别,得到所述语音声学特征对应的音素识别结果,包括:利用训练后的蒸馏模型的输出层中分类...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1