语音识别及模型训练方法、装置和计算机可读存储介质制造方法及图纸

技术编号:24462181 阅读:17 留言:0更新日期:2020-06-10 17:20
本申请涉及一种语音识别及模型训练方法、装置和计算机可读存储介质,所述方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。本申请提供的方案可以提高语音识别准确性。

Speech recognition and model training methods, devices and computer readable storage media

【技术实现步骤摘要】
语音识别及模型训练方法、装置和计算机可读存储介质
本申请涉及语音处理
,特别是涉及一种语音识别及模型训练方法、装置和计算机可读存储介质。
技术介绍
语音识别技术的发展,使人与机器通过自然语言交互成为可能。基于语音识别技术可以将语音信号转换为文本序列。实现这种转换需要对拾取的语音信号进行语音分离(SpeechSeparation,SS)和语音增强(SpeechEnhancement,SE)等前端处理,再对前端处理得到的声学特征进行自动语音识别(AutomaticSpeechRecognition,ASR)后端处理。传统方式前端语音分离增强模型与后端语音识别模型独立训练,在测试应用阶段直接将语音分离增强模型与语音识别模型进行级联。然而,前端处理会引入严重的失真,而这在后端模型训练阶段是未曾考虑的,从而这种级联方式下的语音识别准确性较低。
技术实现思路
基于此,有必要针对语音识别准确性低的技术问题,提供一种语音识别及模型训练方法、装置和计算机可读存储介质。一种语音识别模型训练方法,所述方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。r>一种语音识别模型训练装置,所述装置包括:中间表征学习模块,用于获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;损失融合模块,用于对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;联合训练模块,用于基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述语音识别模型训练方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述语音识别模型训练方法的步骤。上述语音识别模型训练方法、装置、计算机可读存储介质和计算机设备,提出了一种新型的在前端语音分离增强模型和后端语音识别模型之间引入用于中间过渡的鲁棒表征模型的端到端网络架构,这种架构通过引入适当的中间过渡表征学习技术,很好的弥合了以人为导向的语音分离任务和以机器为导向的语音识别任务之间的差异;在这种网络架构中,中间模型借助后端语音识别模型的第二损失函数反向传播完成训练,而语音分离增强模型和语音识别模型可以是预选训练好的,如此可以在较少的迭代训练次数后即可达到收敛;基于前后端模型分别对应损失函数的组合对端到端的网络模型进行联合训练,使得网络架构中每个单独的模型均能够综合学习来自复杂声学环境语音信号中的干扰特征,从而可以保证全局的语音处理任务的性能,提高语音识别准确性;此外,由于网路架构中的每个模型支持灵活独立选择,单独每个模型均可实现最优配置,而无需妥协单独任一模型,从而可以同时兼顾局部的每个语音处理任务的性能,提高语音客观可懂度。一种语音识别方法,包括:获取目标语音流;基于语音分离增强模型提取所述目标语音流中每个音频帧的增强频谱;基于鲁棒表征模型对所述增强频谱进行听觉匹配,得到鲁棒特征;基于语音识别模型对所述鲁棒特征进行识别,得到每个音频帧对应的音素;其中,所述语音分离增强模型、鲁棒表征模型及语音识别模型联合训练得到。一种语音识别装置,所述装置包括:语音分离增强模块,用于获取目标语音流;基于语音分离增强模型提取所述目标语音流中每个音频帧的增强频谱;中间表征过渡模块,用于基于鲁棒表征模型对所述增强频谱进行听觉匹配,得到鲁棒特征;语音识别模块,用于基于语音识别模型对所述鲁棒特征进行识别,得到每个音频帧对应的音素;其中,所述语音分离增强模型、鲁棒表征模型及语音识别模型联合训练得到。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述语音识别方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述语音识别方法的步骤。上述语音识别方法、装置、计算机可读存储介质和计算机设备,提出了一种新型的在前端语音分离增强模型和后端语音识别模型之间引入鲁棒表征模型的端到端网络架构,这种架构通过引入适当的中间过渡表征学习技术,很好的弥合了以人为导向的语音分离任务和以机器为导向的语音识别任务之间的差异;对端到端的网络模型进行联合训练,使得网络架构中每个单独的模型均能够综合学习来自复杂声学环境语音信号中的干扰特征,从而可以保证全局的语音处理任务的性能,提高语音识别准确性;此外,由于网路架构中的每个模型支持灵活独立选择,单独每个模型均可实现最优配置,而无需妥协单独任一模型,从而可以同时兼顾局部的每个语音处理任务的性能,提高语音客观可懂度。附图说明图1为一个实施例中语音识别及模型训练方法的应用环境图;图2为一个实施例中语音识别模型训练方法的流程示意图;图3为一个实施例中基于鲁棒表征模型对语音分离增强模型和语音识别模型进行桥接的模型架构示意图;图4为一个实施例中语音处理模型预训练的步骤的流程示意图;图5为一个实施例中中间模型的构建步骤的流程示意图;图6为一个实施例中语音识别模型预训练的步骤的流程示意图;图7为一个具体实施例中语音识别模型训练方法的流程示意图;图8为一个实施例中语音识别方法的流程示意图;图9a为一个实施例中在五种SNR信噪比条件下基于不同语音识别方法对来自两种声学环境的语音进行识别的字错误率的对比示意图;图9b为一个实施例中在不同SNR信噪比条件下不同语音识别系统的性能比较示意图;图10为一个具体实施例中语音识别方法的流程示意图;图11为一个实施例中语音识别模型训练装置的结构框图;图12为另一个实施例中语音识别模型训练装置的结构框图;图13为一个实施例中语音识别装置的结构框图;图14为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中语音识别模型的训练方法的应用环境图。参照图1,该语音识别模型训练方法应用于模型训练系统。该语音识别模型训本文档来自技高网...

【技术保护点】
1.一种语音识别模型训练方法,所述方法包括:/n获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;/n基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;/n对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;/n基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。/n

【技术特征摘要】
1.一种语音识别模型训练方法,所述方法包括:
获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;
基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;
对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;
基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第一神经网络模型提取样本语音流的估计频谱和嵌入特征矩阵;
根据嵌入特征矩阵及预设理想掩蔽矩阵,确定样本语音流对应的吸引子;
通过计算所述嵌入特征矩阵中每个矩阵元素与所述吸引子的相似性,得到所述样本语音流的目标掩蔽矩阵;
根据所述目标掩蔽矩阵确定样本语音流所对应的增强频谱;
基于所述样本语音流对应的估计频谱与所述增强频谱之间的均方误差损失对所述第一神经网络模型进行训练,得到语音分离增强模型。


3.根据权利要求2所述的方法,其特征在于,所述基于第一神经网络模型提取样本语音流的估计频谱和嵌入特征矩阵包括:
对样本语音流进行傅里叶变换,得到每个音频帧的语音频谱和语音特征;
基于第一神经网络模型对语音频谱进行语音分离和增强,得到估计频谱;
基于第一神经网络模型将语音特征映射至嵌入空间,得到嵌入特征矩阵。


4.根据权利要求3所述的方法,其特征在于,所述根据嵌入特征矩阵及预设理想掩蔽矩阵,确定样本语音流的吸引子包括:
根据所述语音频谱和语音特征确定理想掩蔽矩阵;
基于预设的二元阈值矩阵对所述理想掩蔽矩阵中噪声元素进行过滤;
根据嵌入特征矩阵及过滤了噪声元素的理想掩蔽矩阵,确定样本语音流对应的吸引子。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二神经网络模型;
对所述第二神经网络模型进行非负约束处理,得到非负神经网络模型;
获取用于对非负神经网络模型输出的声学特征进行听觉适配的微分模型;
将所述微分模型与所述非负神经网络模型级联,得到中间模型。


6.根据权利要求5所述的方法,其特征在于,所述获取用于对非负神经网络模型输出的声学特征进行听觉适配的微分模型包括:
获取用于对声学特征对应特征向量进行对数运算的对数模型;
获取用于对声学特征对应特征向量进行差分运算的差分模型;
根据所述对数模型与所述差分模型构建微分模型。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本语音流及对应标注的音素类别;
通过第三神经网络模型提取样本语音流中每个音频帧的深度特征;
根据所有音素类别的音频帧对应的深度特征,确定样本语音流的中心向量;
基于所述深度特征和所述中心向量确定每个音频帧的类间混淆衡量指数与类内距离惩罚指数之间的融合损失;
基于所述融合损失对所述第三神经网络模型进行训练,得到语音识别模型。


8.根据权利要求7所述的方法,其特征在于,所述基于深度特征和中心向量确定每个音频帧的类间混淆衡量指数与类内距离惩罚指数的融合损失包括:
将所述深度特征输入交叉熵函数...

【专利技术属性】
技术研发人员:王珺林永业
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1