语音识别方法及装置、神经网络训练方法及装置制造方法及图纸

技术编号:22886081 阅读:25 留言:0更新日期:2019-12-21 08:03
本公开提供一种语音识别方法及装置、神经网络训练方法及装置;涉及人工智能技术领域。该神经网络训练方法包括:获取样本数据,所述样本数据包括混合语音频谱及其标注音素;通过第一子网络从混合语音频谱中提取目标语音频谱;通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;通过第三子网络,基于所述中间过渡表征进行音素识别;根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。本公开可以提升在复杂干扰声条件下的语音识别性能。

Speech recognition method and device, neural network training method and device

【技术实现步骤摘要】
语音识别方法及装置、神经网络训练方法及装置
本公开涉及人工智能
,具体而言,涉及一种实现语音识别的神经网络训练方法、实现语音识别的神经网络训练装置、语音识别方法、语音识别装置、电子设备以及计算机可读存储介质。
技术介绍
随着科学技术的发展和硬件计算能力的大幅提升,目前越来越多的基于深度学习技术实现语音识别。但声学场景中语音识别的实现往往受限于声学场景的变化性。举例而言,单声道语音信号受到非平稳噪声干扰的情形,如受背景音乐或多说话人干扰等,在实际应用场景中普遍存在。尽管深度学习技术的引入为语音识别技术带来了巨大的性能改进,但传统的语音识别技术在这些复杂的环境中性能仍存在待优化之处。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开实施例的目的在于提供一种实现语音识别的神经网络训练方法、实现语音识别的神经网络训练装置、语音识别方法、语音识别装置、电子设备以及计算机可读存储介质,进而可以提升在复杂干扰声条件下的语音识别性能。根据本公开的一个方面,提供一种实现语音识别的神经网络训练方法,所述神经网络包括第一至第三子网络,所述方法包括:获取样本数据,所述样本数据包括混合语音频谱及其标注音素;通过第一子网络从混合语音频谱中提取目标语音频谱;通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;通过第三子网络,基于所述中间过渡表征进行音素识别;根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。在本公开的一种示例性实施例中,通过第一子网络从混合语音频谱中提取目标语音频谱,包括:将所述混合语音频谱嵌入到多维向量空间,得到所述混合语音频谱每个时频窗口对应的嵌入向量;利用理想比率掩模对所述混合语音的各嵌入向量进行加权规整,得到与所述目标语音频谱对应的吸引子;通过计算所述混合语音的各嵌入向量与吸引子之间的相似度,得到与所述目标语音频谱对应的目标掩蔽矩阵;基于所述目标掩蔽矩阵,从所述混合语音频谱中提取所述目标语音频谱。在本公开的一种示例性实施例中,所述方法还包括:获取各所述样本数据对应的所述吸引子,并计算各所述吸引子的均值,得到全局吸引子。在本公开的一种示例性实施例中,所述通过第二子网络对所述目标语音频谱进行适应性转换,包括:根据所述目标语音频谱的时频窗口顺序,对各时频窗口的目标语音频谱依次进行适应性转换;其中,针对一所述时频窗口的转换过程包括:根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息,生成当前转换过程的隐含状态信息;以及基于各所述隐含状态信息,得到当前转换过程针对的时频窗口的所述中间过渡表征。在本公开的一种示例性实施例中,生成当前转换过程的隐含状态信息,包括:根据当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息,计算候选状态信息、所述候选状态信息的输入权重、上一转换过程目标状态信息的遗忘权重和当前转换过程目标状态信息的输出权重;根据所述遗忘权重对所述上一转换过程目标状态信息进行保留,得到第一中间状态信息;根据所述候选状态信息的输入权重对所述候选状态信息进行保留,得到第二中间状态信息;根据所述第一中间状态信息和第二中间状态信息,得到所述当前转换过程目标状态信息;根据所述当前转换过程目标状态信息的输出权重对所述当前转换过程目标状态信息进行保留,得到当前转换过程的隐含状态信息。在本公开的一种示例性实施例中,基于各所述隐含状态信息,得到当前转换过程针对的时频窗口的所述中间过渡表征,包括:对所述各所述隐含状态信息进行以下一种或多种处理,得到当前转换过程针对的时频窗口的所述中间过渡表征:非负映射、逐元素求对数、计算一阶差分、计算二阶差分、执行全局均值方差归一化以及添加前后时频窗口的特征。在本公开的一种示例性实施例中,通过第三子网络基于所述中间过渡表征进行音素识别,包括:通过至少一个卷积层将多维滤波器应用于所述中间过渡表征,生成卷积层输出;在至少一个递归层中使用所述卷积层输出以生成递归层输出;将所述递归层输出提供至至少一个全连接层,并对所述全连接层的输出应用非线性函数,以获得所述中间过渡表征包括的音素的后验概率。在本公开的一种示例性实施例中,所述递归层包括长短期记忆网络。在本公开的一种示例性实施例中,对所述第一子网络、第二子网络以及第三子网络的参数进行更新,包括:确定所述第一子网络、第二子网络以及第三子网络的联合损失函数;根据所述音素识别的结果、所述标注音素以及所述联合损失函数,计算联合损失函数值;根据所述联合损失函数值,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。在本公开的一种示例性实施例中,所述第一子网络包括窥孔连接的多层长短期记忆网络;所述第二子网络包括窥孔连接的多层长短期记忆网络。根据本公开的一个方面,提供一种基于神经网络的语音识别方法,所述神经网络包括第一至第三子网络,所述方法包括:获取待识别的混合语音频谱;通过第一子网络从混合语音频谱中提取目标语音频谱;通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;通过第三子网络,基于所述中间过渡表征进行音素识别。根据本公开的一个方面,提供一种实现语音识别的神经网络训练装置,所述神经网络包括第一至第三子网络,所述装置包括:数据获取模块,用于获取样本数据,所述样本数据包括混合语音频谱及其标注音素;目标语音提取模块,用于通过第一子网络从混合语音频谱中提取目标语音频谱;适应性转换模块,用于通过第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;语音识别模块,用于通过第三子网络,基于所述中间过渡表征进行音素识别;参数更新模块,用于根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。在本公开的一种示例性实施例中,所述目标语音提取模块通过下述步骤从混合语音频谱中提取目标语音频谱:将所述混合语音频谱嵌入到多维向量空间,得到所述混合语音频谱每个时频窗口对应的嵌入向量;利用理想比率掩模对所述混合语音的各嵌入向量进行加权规整,得到与所述目标语音频谱对应的吸引子;通过计算所述混合语音的各嵌入向量与吸引子之间的相似度,得到与所述目标语音频谱对应的目标掩蔽矩阵;基于所述目标掩蔽矩阵,从所述混合语音频谱中提取所述目标语音频谱。在本公开的一种示例性实施例中,所述装置还包括:全局吸引子计算模块,用于获取各所述样本数据对应的所述吸引子,并计算各所述吸引子的均值,得到全局吸引子。在本公开的一种示例性实施例中,所述适应性转换模块通过下述步本文档来自技高网...

【技术保护点】
1.一种实现语音识别的神经网络训练方法,所述神经网络包括第一至第三子网络;其特征在于,所述方法包括:/n获取样本数据,所述样本数据包括混合语音频谱及其标注音素;/n通过所述第一子网络从混合语音频谱中提取目标语音频谱;/n通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;/n通过所述第三子网络,基于所述中间过渡表征进行音素识别;/n根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。/n

【技术特征摘要】
1.一种实现语音识别的神经网络训练方法,所述神经网络包括第一至第三子网络;其特征在于,所述方法包括:
获取样本数据,所述样本数据包括混合语音频谱及其标注音素;
通过所述第一子网络从混合语音频谱中提取目标语音频谱;
通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;
通过所述第三子网络,基于所述中间过渡表征进行音素识别;
根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。


2.根据权利要求1所述的神经网络训练方法,其特征在于,通过第一子网络从混合语音频谱中提取目标语音频谱,包括:
将所述混合语音频谱嵌入到多维向量空间,得到所述混合语音频谱每个时频窗口对应的嵌入向量;
利用理想比率掩模对所述混合语音的各嵌入向量进行加权规整,得到与所述目标语音频谱对应的吸引子;
通过计算所述混合语音的各嵌入向量与吸引子之间的相似度,得到与所述目标语音频谱对应的目标掩蔽矩阵;
基于所述目标掩蔽矩阵,从所述混合语音频谱中提取所述目标语音频谱。


3.根据权利要求2所述的神经网络训练方法,其特征在于,所述方法还包括:
获取各所述样本数据对应的所述吸引子,并计算各所述吸引子的均值,得到全局吸引子。


4.根据权利要求1所述的神经网络训练方法,其特征在于,所述通过第二子网络对所述目标语音频谱进行适应性转换,包括:
根据所述目标语音频谱的时频窗口顺序,对各时频窗口的目标语音频谱依次进行适应性转换;其中,针对一所述时频窗口的转换过程包括:
根据当前转换过程针对的时频窗口的目标语音频谱和前一转换过程的隐含状态信息,生成当前转换过程的隐含状态信息;以及
基于各所述隐含状态信息,得到当前转换过程针对的时频窗口的所述中间过渡表征。


5.根据权利要求4所述的神经网络训练方法,其特征在于,生成当前转换过程的隐含状态信息,包括:
根据当前时频窗口的目标语音频谱以及上一转换过程的隐含状态信息,计算候选状态信息、所述候选状态信息的输入权重、上一转换过程目标状态信息的遗忘权重和当前转换过程目标状态信息的输出权重;
根据所述遗忘权重对所述上一转换过程目标状态信息进行保留,得到第一中间状态信息;
根据所述候选状态信息的输入权重对所述候选状态信息进行保留,得到第二中间状态信息;
根据所述第一中间状态信息和第二中间状态信息,得到所述当前转换过程目标状态信息;
根据所述当前转换过程目标状态信息的输出权重对所述当前转换过程目标状态信息进行保留,得到当前转换过程的隐含状态信息。


6.根据权利要求4所述的神经网络训练方法,其特征在于,基于各所述隐含状态信息,得到当前转换过程针对的时频窗口的所述中间过渡表征,包括:
对所述各所述隐含状态信息进行以下一种或多种处理,得到当前转换过程针对的时频窗口的所述中间过渡表征:
非负映射、逐元素求对数、计算一阶差分、计算二阶差分、执行全局均值方差归一化以及添加前后时频窗口的特征。


7.根据权利要求1所述的神经网络训练方法,其特...

【专利技术属性】
技术研发人员:王珺林永业苏丹俞栋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1