一种语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:31090121 阅读:13 留言:0更新日期:2021-12-01 12:51
本申请提供了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取目标混合语音的语音特征以及指定说话人的说话人特征;以趋于目标语音特征为提取方向,根据目标混合语音的语音特征以及目标说话人的说话人特征,从目标混合语音的语音特征中提取目标说话人的语音特征,以得到目标说话人的提取语音特征,其中,目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征;根据指定说话人的提取语音特征,获取指定说话人的语音识别结果。经由本申请提供的语音识别方法可从包含指定说话人语音的混合语音中较为准确的识别出指定说话人的语音内容,用户体验较好。验较好。验较好。

【技术实现步骤摘要】
一种语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能技术的飞速发展,智能设备在人们的生活中扮演着越来越重要的角色,语音交互作为最方便自然的人机交互方式深受用户喜爱。
[0003]在用户使用智能设备时,其可能处在一个存在其他人声的复杂环境中,在这种情况下,智能设备采集的语音为混合语音。在进行语音交互时,为了能够获得较好的用户体验,就需要从混合语音中识别出目标说话人的语音内容,而如何从混合语音中识别出目标说话人的语音内容是目前亟需解决的问题。

技术实现思路

[0004]有鉴于此,本申请提供了一种语音识别方法、装置、设备及存储介质,用以从混合语音中较为准确地识别出目标说话人的语音内容,其技术方案如下:
[0005]一种语音识别方法,包括:
[0006]获取目标混合语音的语音特征以及目标说话人的说话人特征;
[0007]以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,以得到所述目标说话人的提取语音特征,其中,所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征;
[0008]根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果。
[0009]可选的,获取所述目标说话人的说话人特征,包括:
[0010]获取所述目标说话人的注册语音;
[0011]对所述目标说话人的注册语音提取短时声纹特征和长时声纹特征,以得到多尺度声纹特征,作为所述目标说话人的说话人特征。
[0012]可选的,所述以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,包括:
[0013]利用预先建立的特征提取模型,以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征;
[0014]其中,所述特征提取模型采用包含指定说话人的语音的训练混合语音的语音特征和所述指定说话人的说话人特征,以基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到,所述指定说话人的提取语音特征为从所述训练混合语音的语音特征中提取的所述指定说话人的语音特征。
[0015]可选的,所述特征提取模型同时以所述指定说话人的提取语音特征和基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到。
[0016]可选的,所述利用预先建立的特征提取模型,以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,包括:
[0017]将所述目标混合语音的语音特征以及所述目标说话人的说话人特征输入所述特征提取模型,得到所述目标说话人对应的特征掩码;
[0018]根据所述目标混合语音的语音特征和所述目标说话人对应的特征掩码,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征。
[0019]可选的,所述根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果,包括:
[0020]根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征,获取所述目标说话人的语音识别结果;
[0021]其中,所述目标说话人的注册语音特征为所述目标说话人的注册语音的语音特征。
[0022]可选的,所述根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果,包括:
[0023]将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型,得到所述目标说话人的语音识别结果;
[0024]所述语音识别模型与所述特征提取模型联合训练得到,所述语音识别模型采用所述指定说话人的提取语音特征,以基于所述指定说话人的提取语音特征获得的语音识别结果为优化目标训练得到。
[0025]可选的,将所述语音识别输入特征输入所述语音识别模型,得到所述目标说话人的语音识别结果,包括:
[0026]基于所述语音识别模型的编码器模块,对所述语音识别输入特征进行编码,以得到编码结果;
[0027]基于所述语音识别模型的注意力模块,从所述编码结果中提取解码时刻解码所需的音频相关特征向量;
[0028]基于所述语音识别模型的解码器模块,对从所述编码结果中提取的所述音频相关特征向量进行解码,得到所述解码时刻的识别结果。
[0029]可选的,所述语音识别模型与所述特征提取模型联合训练的过程包括:
[0030]利用特征提取模型,从所述训练混合语音的语音特征中提取所述指定说话人的语音特征,以得到所述指定说话人的提取语音特征;
[0031]利用语音识别模型和所述指定说话人的提取语音特征,获取所述指定说话人的语音识别结果;
[0032]根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新,并根据所述指定说话人的语音识别结果对语音识别模型进行参数更新。
[0033]可选的,所述训练混合语音对应有所述指定说话人的语音;
[0034]所述根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新,并根据所述指定说话人的语音识别结果对语音识别模型进行参数更新,包括:
[0035]获取所述指定说话人的语音的标注文本,并获取所述指定说话人的语音的语音特征作为所述指定说话人的标准语音特征;
[0036]根据所述指定说话人的提取语音特征和所述指定说话人的标准语音特征确定第一预测损失,并根据所述指定说话人的语音识别结果和所述指定说话人的语音的标注文本,确定第二预测损失;
[0037]根据所述第一预测损失和所述第二预测损失对特征提取模型进行参数更新,并根据所述第二预测损失对语音识别模型进行参数更新。
[0038]可选的,所述训练混合语音以及所述训练混合语音对应的所述指定说话人的语音从预先构建的训练数据集中获取;
[0039]所述训练数据集的构建过程包括:
[0040]获取多个说话人的多条语音,其中,每条语音为单一说话人的语音,每条语音具有标注文本;
[0041]将所述多条语音中的部分语音或全部语音中的每条语音作为指定说话人的语音:将其它语音中其他说话人的一条或多条语音与该指定说话人的语音进行混合,以得到一条训练混合语音,将该指定说话人的语音与通过混合得到的训练混合语音作为一条训练数据;
[0042]由获得的所有训练数据组成所述训练数据集。
[0043]一种语音识别装置,包括:特征获取模块、特征提取模块和语音识别模块;
[0044]所述特征获取模块,用于获取目标混本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取目标混合语音的语音特征以及目标说话人的说话人特征;以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,以得到所述目标说话人的提取语音特征,其中,所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征;根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,获取所述目标说话人的说话人特征,包括:获取所述目标说话人的注册语音;对所述目标说话人的注册语音提取短时声纹特征和长时声纹特征,以得到多尺度声纹特征,作为所述目标说话人的说话人特征。3.根据权利要求1所述的语音识别方法,其特征在于,所述以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,包括:利用预先建立的特征提取模型,以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征;其中,所述特征提取模型采用包含指定说话人的语音的训练混合语音的语音特征和所述指定说话人的说话人特征,以基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到,所述指定说话人的提取语音特征为从所述训练混合语音的语音特征中提取的所述指定说话人的语音特征。4.根据权利要求3所述的语音识别方法,其特征在于,所述特征提取模型同时以所述指定说话人的提取语音特征和基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到。5.根据权利要求3或4所述的语音识别方法,其特征在于,所述利用预先建立的特征提取模型,以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,包括:将所述目标混合语音的语音特征以及所述目标说话人的说话人特征输入所述特征提取模型,得到所述目标说话人对应的特征掩码;根据所述目标混合语音的语音特征和所述目标说话人对应的特征掩码,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征。6.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果,包括:根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征,获取所述目标说话人的语音识别结果;其中,所述目标说话人的注册语音特征为所述目标说话人的注册语音的语音特征。7.根据权利要求3或4所述的语音识别方法,其特征在于,所述根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果,包括:
将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型,得到所述目标说话人的语音识别结果;所述语音识别模型与所述特征提取模型联合训练得到,所述语音识别模型采用所述指定说话人的提取语音特征,以基于所述指定说话人的提取语音特征获得的语音识别结果为优化目标训练得到。8.根据权利要求7所述的语音识别方法,其特征在于,将所述语音识别输入特征输入所述语音识别模型,得到所述目标说话人的语音识别结果,包括:基于所述语音识别模型的编码器模块,对所述语音识别输入特征进行编码,以得到编码结果;基于所述语音识别模型的注意力模块,从所述编码结果中提取解码时刻解码所需的音频相关特征向量;基于所述语音识别模型的解码器模块,对从所述编码结果中提取的所述音频相关特征向量进行解码,得到所述解码时刻的识别结果。9.根据权利要求7所述的语音识别方法,其特征在于,所述语音识别模型与所述特征提取模型联合训练的过程包括:利用特征提取模型,从所述训练混合语音的语音特征中提取所述指定说话人的语音特征,以得到所述指定说话人的提取语音特征;利用语音识别模型和所述指定说话人的提取语音特征,获取所述指定说话人的语音识别结果;根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新,并根据所述指定说话人的语音识别...

【专利技术属性】
技术研发人员:方昕刘俊华
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1