【技术实现步骤摘要】
语音识别方法及相关装置、电子设备和存储介质
[0001]本申请涉及语音识别
,特别是涉及一种语音识别方法及相关装置、电子设备和存储介质。
技术介绍
[0002]语音识别是指对输入语音进行识别,将语音信息自动转化为文字。目前,低信噪比、低资源是当前语音识别技术面临的重要难题。
[0003]具体来说,低资源方面,由于缺乏丰富且标注的训练数据,语音识别模型难以得到充分学习,而低信噪比方面,常规方式难以提取带噪语音中的有效表征信息,其语音识别结果出现剧烈下降,无法满足低信噪比条件下的低资源语音识别需求。然而,在现实场景中,受传输介质、传输协议等通信条件以及环境噪声等影响,难免存在低信噪比的语音需要对其识别。有鉴于此,如何在低信噪比且低资源的场景下,提升语音识别性能,成为亟待解决的问题。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备和存储介质,能够在低信噪比且低资源的场景下,提升语音识别性能。
[0005]为了解决上述技术问题,本申请第一方面提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音;基于语音识别模型对所述待识别语音进行识别,得到识别文本;其中,所述语音识别模型包括编码网络和解码网络,所述编码网络基于样本第一干净语音经特征聚类并量化后的帧级第一量化特征、样本第一带噪语音的帧级带噪语音特征之间的对比损失训练得到,所述样本第一带噪语音由所述样本第一干净语音加噪得到,所述解码网络在所述编码网络训练收敛之后基于样本第二带噪语音进行有监督训练得到。2.根据权利要求1所述的方法,其特征在于,所述对比损失的获取步骤包括:提取所述样本第一带噪语音的帧级深度语音特征;在掩蔽所述样本第一带噪语音中若干语音帧的情况下,基于所述帧级深度语音特征进行上下文编码,得到所述样本第一带噪语音各所述语音帧的帧级带噪语音特征;比对位于相同时序的所述帧级带噪语音特征与所述帧级第一量化特征,得到所述对比损失。3.根据权利要求2所述的方法,其特征在于,在所述比对位于相同时序的所述帧级带噪语音特征与所述帧级第一量化特征,得到所述对比损失之前,所述方法还包括:基于与所述帧级带噪语音特征位于相同时序的帧级第一量化特征所属聚类集合对应的特征投影参数,对所述帧级带噪语音特征进行特征投影,得到所述帧级带噪语音特征的帧级带噪投影特征;所述比对位于相同时序的所述帧级带噪语音特征与所述帧级第一量化特征,得到所述对比损失,包括:基于与所述帧级带噪语音特征位于相同时序的帧级第一量化特征、所述帧级带噪语音特征的帧级带噪投影特征之间的特征相似度,得到所述对比损失。4.根据权利要求3所述的方法,其特征在于,在所述编码网络的训练过程中,基于所述对比损失,调整所述编码网络的网络参数和所述特征投影参数。5.根据权利要求2所述的方法,其特征在于,所述编码网络包括顺次连接的深度特征提取子网络和上下文编码子网络,所述深度特征提取子网络用于提取所述帧级深度语音特征,所述上下文编码子网络用于执行所述上下文编码。6.根据权利要求2至5任一项所述的方法,其特征在于,所述对比损失由第一损失和第二损失加权得到;其中,所述第一损失通过比对位于相同第一时序的所述帧级带噪语音特征与所述帧级第一量化特征得到,所述第二损失通过比对位于相同第二时序的所述帧级带噪语音特征与所述帧级...
【专利技术属性】
技术研发人员:宣璇,方磊,周振昆,胡鹏,方四安,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。