【技术实现步骤摘要】
一种语音识别方法、装置、设备及存储介质
[0001]本申请涉及语音识别
,更具体地说,提出了一种语音识别方法、装置、设备及存储介质。
技术介绍
[0002]语音识别(Automatic Speech Recognition,ASR)技术是让机器通过识别和理解过程把语音信号转换成相应的文本或命令的技术,就是让机器听懂人类的语音。
[0003]目前,端到端的语音识别是主流方案,其中,属基于注意力机制的端到端语音识别方案的识别效果最好。但是,常规的基于注意力机制的端到端模型的注意力机制很难保证单调性,具体而言,模型的注意力是无约束、没有次序的,这就使得模型识别准确度难以提升,尤其是在面对流式识别需求时,往往识别效果不佳。
技术实现思路
[0004]基于上述技术现状,本申请提出一种语音识别方法、装置、设备及存储介质,能够对语音识别的注意力进行约束,从而能够提高语音识别准确度。
[0005]一种语音识别方法,包括:
[0006]获取编码器对待识别语音的声学特征进行编码得到的编码特征; />[0007]其中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取编码器对待识别语音的声学特征进行编码得到的编码特征;其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。2.根据权利要求1所述的方法,其特征在于,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征;根据所述待识别语音的编码特征和解码特征,确定所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数;根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果。3.根据权利要求1或2所述的方法,其特征在于,所述编码器对待识别语音的声学特征进行编码得到编码特征,包括:对待识别语音的每一帧声学特征,分别进行基于自注意力机制的编码处理,从而得到所述待识别语音的编码特征;其中,对任意一帧声学特征进行基于自注意力机制的编码处理,包括:根据包含该帧声学特征的设定长度的声学特征序列,对该帧声学特征进行编码,得到与该帧声学特征对应的编码特征。4.根据权利要求2所述的方法,其特征在于,通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征,包括:对所述待识别语音的各帧编码特征,以及所述待识别语音的已识别结果对应的解码特征进行解码,得到所述待识别语音的解码特征;其中,所述待识别语音的已识别结果,为在当前时刻之前已得到的对所述待识别语音的识别结果。5.根据权利要求2所述的方法,其特征在于,根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果,包括:根据所述待识别语音的各帧编码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果;根据所述待识别语音的解码特征,确定所述待识别语音的第二解码结果;根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果。6.根据权利要求5所述的方法,其特征在于,根据所述待识别语音的各帧编码特征,以及所述待识别语音的解码结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果,包括:对所述待识别语音的各帧编码特征分别进行解码,得到与各帧编码特征对应的解码结
果;以所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数为权重,对各帧编码特征对应的解码结果进行加权,得到所述待识别语音的第一解码结果。7.根据权利要求5所述的方法,其特征在于,所述第一解码结果和所述第二解码结果分别包含多个解码路径;根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果,包括:对所述第一解码结果与所述第二解码结果的各个解码路径的得分进行加权求和,并从得分加权求和后的解...
【专利技术属性】
技术研发人员:刘丹,韩凯,魏思,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。