【技术实现步骤摘要】
一种语音识别方法、装置、设备及存储介质
[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
[0002]随着人工智能技术的飞速发展,智能设备在人们的生活中扮演着越来越重要的角色,语音交互作为最方便自然的人机交互方式深受用户喜爱。
[0003]在用户使用智能设备时,其可能处在一个存在其他人声的复杂环境中,在这种情况下,智能设备采集的语音为混合语音。在进行语音交互时,为了能够获得较好的用户体验,就需要从混合语音中识别出目标说话人的语音内容,而如何从混合语音中识别出目标说话人的语音内容是目前亟需解决的问题。
技术实现思路
[0004]有鉴于此,本申请提供了一种语音识别方法、装置、设备及存储介质,用以从混合语音中较为准确地识别出目标说话人的语音内容,其技术方案如下:
[0005]一种语音识别方法,包括:
[0006]获取目标混合语音的语音特征以及目标说话人的说话人特征;
[0007]以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,以得到所述目标说话人的提取语音特征,其中,所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征;
[0008]根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果。
[0009]可选的,获取所述目标说话人的说话人特征,包括:
[001 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取目标混合语音的语音特征以及目标说话人的说话人特征;以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,以得到所述目标说话人的提取语音特征,其中,所述目标语音特征为用于获得与所述目标说话人的真实语音内容一致的语音识别结果的语音特征;根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,获取所述目标说话人的说话人特征,包括:获取所述目标说话人的注册语音;对所述目标说话人的注册语音提取短时声纹特征和长时声纹特征,以得到多尺度声纹特征,作为所述目标说话人的说话人特征。3.根据权利要求1所述的语音识别方法,其特征在于,所述以趋于目标语音特征为提取方向,根据所述目标混合语音的语音特征以及所述目标说话人的说话人特征,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,包括:利用预先建立的特征提取模型,以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征;其中,所述特征提取模型采用包含指定说话人的语音的训练混合语音的语音特征和所述指定说话人的说话人特征,以基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到,所述指定说话人的提取语音特征为从所述训练混合语音的语音特征中提取的所述指定说话人的语音特征。4.根据权利要求3所述的语音识别方法,其特征在于,所述特征提取模型同时以所述指定说话人的提取语音特征和基于所述指定说话人的提取语音特征获取的语音识别结果为优化目标训练得到。5.根据权利要求3或4所述的语音识别方法,其特征在于,所述利用预先建立的特征提取模型,以所述目标混合语音的语音特征以及所述目标说话人的说话人特征为依据,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征,包括:将所述目标混合语音的语音特征以及所述目标说话人的说话人特征输入所述特征提取模型,得到所述目标说话人对应的特征掩码;根据所述目标混合语音的语音特征和所述目标说话人对应的特征掩码,从所述目标混合语音的语音特征中提取所述目标说话人的语音特征。6.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果,包括:根据所述目标说话人的提取语音特征以及所述目标说话人的注册语音特征,获取所述目标说话人的语音识别结果;其中,所述目标说话人的注册语音特征为所述目标说话人的注册语音的语音特征。7.根据权利要求3或4所述的语音识别方法,其特征在于,所述根据所述目标说话人的提取语音特征,获取所述目标说话人的语音识别结果,包括:
将至少包括所述目标说话人的提取语音特征的语音识别输入特征输入预先建立的语音识别模型,得到所述目标说话人的语音识别结果;所述语音识别模型与所述特征提取模型联合训练得到,所述语音识别模型采用所述指定说话人的提取语音特征,以基于所述指定说话人的提取语音特征获得的语音识别结果为优化目标训练得到。8.根据权利要求7所述的语音识别方法,其特征在于,将所述语音识别输入特征输入所述语音识别模型,得到所述目标说话人的语音识别结果,包括:基于所述语音识别模型的编码器模块,对所述语音识别输入特征进行编码,以得到编码结果;基于所述语音识别模型的注意力模块,从所述编码结果中提取解码时刻解码所需的音频相关特征向量;基于所述语音识别模型的解码器模块,对从所述编码结果中提取的所述音频相关特征向量进行解码,得到所述解码时刻的识别结果。9.根据权利要求7所述的语音识别方法,其特征在于,所述语音识别模型与所述特征提取模型联合训练的过程包括:利用特征提取模型,从所述训练混合语音的语音特征中提取所述指定说话人的语音特征,以得到所述指定说话人的提取语音特征;利用语音识别模型和所述指定说话人的提取语音特征,获取所述指定说话人的语音识别结果;根据所述指定说话人的提取语音特征和所述指定说话人的语音识别结果对特征提取模型进行参数更新,并根据所述指定说话人的语音识别...
【专利技术属性】
技术研发人员:方昕,刘俊华,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。