【技术实现步骤摘要】
端到端远场语音识别系统训练方法、装置、计算机设备
[0001]本申请涉及语音识别
,特别是涉及一种端到端远场语音识别系统训练方法、装置、计算机设备和存储介质。
技术介绍
[0002]在语音识别场景中,由于远场环境下麦克风录制的语音容易受到背景噪声、房间混响等干扰,且不同的房间以及录制场景所带来的混响和噪声存在较大差异,这对远场语音录制带来了很大挑战。
[0003]采用传统建模方式的语音识别算法,通常需要使用数据标注对齐模型来对训练数据强制对齐,还需要声学模型和语言模型参与建模,算法复杂,且数据标注对齐模型、声学模型以及语言模型的训练过程都是独立的,也会带来非一致优化的问题,训练效率低、效果不佳。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够解决上述问题的端到端远场语音识别系统训练方法、装置、计算机设备和存储介质。
[0005]第一方面,本申请提供了一种端到端远场语音识别系统训练方法,所述方法包括:获取样本远场语音数据,将所述样本远场语音数据输入至端到端远场语音识 ...
【技术保护点】
【技术特征摘要】
1.一种端到端远场语音识别系统训练方法,其特征在于,所述方法包括:获取样本远场语音数据,将所述样本远场语音数据输入至端到端远场语音识别系统中基于注意力机制的编码网络,得到编码输出特征;基于训练完成的预训练模型,获取所述样本远场语音数据对应的语音上下文特征;所述训练完成的预训练模型为采用样本近场语音数据进行模型训练得到;融合所述编码输出特征和所述语音上下文特征,得到目标训练数据;所述目标训练数据用于输入至所述端到端远场语音识别系统中基于注意力机制的解码网络;根据所述目标训练数据,对所述端到端远场语音识别系统进行训练,得到训练完成的端到端远场语音识别系统;所述训练完成的端到端远场语音识别系统用于在远场场景下识别出语音对象对应的音频信息。2.根据权利要求1所述的方法,其特征在于,在所述基于训练完成的预训练模型,获取所述样本远场语音数据对应的语音上下文特征的步骤之前,所述方法还包括:获取样本近场语音数据;所述样本近场语音数据包括按照时序排列的多个近场语音数据;基于所述样本近场语音数据确定训练损失值,并根据所述训练损失值调整所述预训练模型中的模型参数,直到满足模型训练结束条件,得到所述训练完成的预训练模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述样本近场语音数据确定训练损失值,包括:将所述样本近场语音数据输入至所述预训练模型中的编码网络,得到映射隐含信息;将所述映射隐含信息输入至所述预训练模型中的上下文网络,得到样本上下文特征;根据所述映射隐含信息和所述样本上下文特征,确定预测噪声对比损失,作为所述训练损失值。4.根据权利要求3所述的方法,其特征在于,所述将所述样本近场语音数据输入至所述预训练模型中的编码网络,得到映射隐含信息,包括:通过所述预训练模型中的编码网络,将所述样本近场语音数据映射到隐含空间,得到所述映射隐含信息;所述将所述映射隐含信息输入至所述预训练模型中的上下文网络,得到样本上下文特征,包括:通过所述预训练模型中的上下文网络,将所述隐含空间映射到上下文信息空间,对所述映射隐含信息中的多个时间步输出进行组合,得到所述样本上下文特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标训练数据,对所述端到端远场语音识别系统进行训练,得到训练完成的端到端远场语音识别系统,...
【专利技术属性】
技术研发人员:黄文琦,林全郴,梁凌宇,姚森敬,习伟,林克全,
申请(专利权)人:南方电网数字电网研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。