语音识别方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:39304441 阅读:5 留言:0更新日期:2023-11-12 15:53
本申请实施例提供一种语音识别方法、装置、电子设备及计算机可读存储介质,至少应用于人工智能领域和语音识别领域,其中方法包括:对待识别语音进行定长编码处理,得到至少一个定长编码语音块;定长编码处理所采用的语音截取长度为固定截取长度;确定每一定长编码语音块的CTC概率,基于定长编码语音块的CTC概率,确定与待识别语音对应的至少一个文字所处位置;基于至少一个文字所处位置,对至少一个定长编码语音块进行变长编码处理,得到至少一个变长编码语音块;确定每一变长编码语音块的CTC概率;基于变长编码语音块的CTC概率,确定待识别语音对应的语音识别结果。通过本申请,能够在提高语音识别准确率的同时,降低语音识别的延迟。别的延迟。别的延迟。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及计算机可读存储介质


[0001]本申请实施例涉及互联网领域,涉及但不限于一种语音识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]目前,对于流式语音识别,通常采用流式截断注意力模型或者流式级联模型实现。其中,流式多级的截断注意力模型(SMLTA,Streaming Multi

Layer Truncated Attention)和SMLTA2模型是经典的流式截断注意力模型,是基于一种用于处理序列标注问题中的输入与输出标签的对齐问题(CTC,Connectionist Temporal Classification)的尖峰信息对语音流进行截断,进而实现特征层层递进的更精准的特征选择。而流式级联模型中,编码器由两部分构成,因果性编码器(Causal Encoder)与非因果性编码器(Non

Causal Encoder),这种流式级联模型既兼顾了识别延迟,又兼顾了识别效果。
[0003]但是,相关技术中,流式截断注意力模型中的注意力部分计算了多次,并且解码器和CTC的尖峰信息同时为注意力的切断位置提供了信息,计算复杂,运行速度较慢,不能直接应用于输入法语音识别中;流式级联模型中语音块切分不准确,从而导致了某些语音的识别错误。由此可见,相关技术中的语音识别方法,均存在识别准确率和识别效率不能同时保证的问题。

技术实现思路

[0004]本申请实施例提供一种语音识别方法、装置、电子设备及计算机可读存储介质,至少能够应用于人工智能领域和语音识别领域,能够在提高语音识别准确率的同时,降低语音识别的延迟。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种语音识别方法,包括:对待识别语音进行定长编码处理,得到至少一个定长编码语音块;所述定长编码处理所采用的语音截取长度为固定截取长度;确定每一所述定长编码语音块的CTC概率,并基于所述定长编码语音块的CTC概率,确定与所述待识别语音对应的至少一个文字所处位置;基于所述至少一个文字所处位置,对所述至少一个定长编码语音块进行变长编码处理,得到至少一个变长编码语音块;所述变长编码处理所采用的语音截取区间为非固定区间;确定每一所述变长编码语音块的CTC概率;基于所述变长编码语音块的CTC概率,确定所述待识别语音对应的语音识别结果。
[0007]本申请实施例提供一种语音识别装置,所述装置包括:定长编码模块,用于对待识别语音进行定长编码处理,得到至少一个定长编码语音块;所述定长编码处理所采用的语音截取长度为固定截取长度;第一CTC解码模块,用于确定每一所述定长编码语音块的CTC概率,并基于所述定长编码语音块的CTC概率,确定与所述待识别语音对应的至少一个文字所处位置;变长编码模块,用于基于所述至少一个文字所处位置,对所述至少一个定长编码语音块进行变长编码处理,得到至少一个变长编码语音块;所述变长编码处理所采用的语
音截取区间为非固定区间;第二CTC解码模块,用于确定每一所述变长编码语音块的CTC概率;确定模块,用于基于所述变长编码语音块的CTC概率,确定所述待识别语音对应的语音识别结果。
[0008]在一些实施例中,所述定长编码模块还用于:获取预设的固定截取长度;以所述固定截取长度对应的语音帧数量为截取长度,将所述待识别语音对应的语音信号划分成多个第一类语音信号片段;其中,每一所述第一类语音信号片段中均包括所述语音帧数量的语音帧;按照预设的后向偏移参数,依次对每一所述第一类语音信号片段进行前馈计算,得到所述至少一个定长编码语音块。
[0009]在一些实施例中,所述定长编码模块还用于:基于所述后向偏移参数,对每一所述第一类语音信号片段进行卷积处理,得到每一所述第一类语音信号片段对应的局部信息;对每一所述第一类语音信号片段进行注意力处理,得到每一所述第一类语音信号片段对应的全局信息;对所述局部信息和所述全局信息进行信息结合,得到每一所述第一类语音信号片段对应的定长编码语音块。
[0010]在一些实施例中,所述第一CTC解码模块还用于:通过CTC解码模块确定每一所述定长编码语音块的后验概率;将所述后验概率确定为相应定长编码语音块的CTC概率。
[0011]在一些实施例中,所述第一CTC解码模块还用于:确定每一语音帧在预设文字库中的每一预设文字下的CTC概率;其中,所述预设文字库中包括不同的文字和空文本;针对于每一语音帧,从所述语音帧在全部预设文字下的CTC概率中,将最大CTC概率对应的预设文字确定为目标预设文字;如果所述目标预设文字是任一文字,将所述语音帧所在的位置确定为与相应文字对应的一个尖峰位置;如果连续的两个语音帧预测的文字为同一个文字,将在前的一个语音帧所在的位置确定为一个尖峰位置;将每一所述尖峰位置确定为所述待识别语音对应的一个文字所处位置。
[0012]在一些实施例中,所述变长编码模块还用于:对所述至少一个定长编码语音块进行拼接处理,得到拼接语音信号;确定与每一所述文字所处位置对应的语音截取区间;以所述语音截取区间对应的语音帧数量为截取长度,将所述拼接语音信号划分成多个第二类语音信号片段;其中,每一所述第二类语音信号片段中包括的语音帧的位置与其他第二类语音信号片段中包括的语音帧的位置不同;依次对每一所述第二类语音信号片段进行前馈计算,得到所述至少一个变长编码语音块。
[0013]在一些实施例中,所述变长编码模块还用于:获取预设的后向切分参数;以所述文字所处位置为切分起点,以所述后向切分参数为后向延伸长度,确定每一所述文字所处位置对应的语音截取区间。
[0014]在一些实施例中,所述变长编码模块还用于:对每一所述第二类语音信号片段进行卷积处理,得到每一所述第二类语音信号片段对应的局部信息;对每一所述第二类语音信号片段进行注意力处理,得到每一所述第二类语音信号片段对应的全局信息;对所述局部信息和所述全局信息进行信息结合,得到每一所述第二类语音信号片段对应的变长编码语音块。
[0015]在一些实施例中,所述装置还包括处理模块,用于控制所述语音识别方法通过语音识别模型实现;所述语音识别模型包括定长编码网络、第一CTC解码网络、变长编码网络、第二CTC解码网络和注意力解码网络;所述定长编码网络用于对所述待识别语音进行所述
定长编码处理;所述第一CTC解码网络用于确定每一所述定长编码语音块的CTC概率,并基于所述定长编码语音块的CTC概率,确定与所述待识别语音对应的至少一个文字所处位置;所述变长编码网络用于基于所述至少一个文字所处位置,对所述至少一个定长编码语音块进行变长编码处理;所述第二CTC解码网络用于确定每一所述变长编码语音块的CTC概率,并基于所述变长编码语音块的CTC概率,确定所述待识别语音对应的语音识别结果;所述注意力解码网络用于在对所述语音识别模型进行训练时,输出样本识别结果。
[0016]在一些实施例中,所述装置还包括模型训练模块,用于:将样本语音输入至语音识别模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:对待识别语音进行定长编码处理,得到至少一个定长编码语音块;所述定长编码处理所采用的语音截取长度为固定截取长度;确定每一所述定长编码语音块的CTC概率,并基于所述定长编码语音块的CTC概率,确定与所述待识别语音对应的至少一个文字所处位置;基于所述至少一个文字所处位置,对所述至少一个定长编码语音块进行变长编码处理,得到至少一个变长编码语音块;所述变长编码处理所采用的语音截取区间为非固定区间;确定每一所述变长编码语音块的CTC概率;基于所述变长编码语音块的CTC概率,确定所述待识别语音对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述对待识别语音进行定长编码处理,得到至少一个定长编码语音块,包括:获取预设的固定截取长度;以所述固定截取长度对应的语音帧数量为截取长度,将所述待识别语音对应的语音信号划分成多个第一类语音信号片段;其中,每一所述第一类语音信号片段中均包括所述语音帧数量的语音帧;按照预设的后向偏移参数,依次对每一所述第一类语音信号片段进行前馈计算,得到所述至少一个定长编码语音块。3.根据权利要求2所述的方法,其特征在于,所述按照预设的后向偏移参数,依次对每一所述第一类语音信号片段进行前馈计算,得到所述至少一个定长编码语音块,包括:基于所述后向偏移参数,对每一所述第一类语音信号片段进行卷积处理,得到每一所述第一类语音信号片段对应的局部信息;对每一所述第一类语音信号片段进行注意力处理,得到每一所述第一类语音信号片段对应的全局信息;对所述局部信息和所述全局信息进行信息结合,得到每一所述第一类语音信号片段对应的定长编码语音块。4.根据权利要求1所述的方法,其特征在于,所述确定每一所述定长编码语音块的CT C概率,包括:通过CTC解码模块确定每一所述定长编码语音块的后验概率;将所述后验概率确定为相应定长编码语音块的CTC概率。5.根据权利要求1所述的方法,其特征在于,所述基于所述定长编码语音块的CTC概率,确定与所述待识别语音对应的至少一个文字所处位置,包括:确定每一语音帧在预设文字库中的每一预设文字下的CTC概率;其中,所述预设文字库中包括不同的文字和空文本;针对于每一语音帧,从所述语音帧在全部预设文字下的CTC概率中,将最大CTC概率对应的预设文字确定为目标预设文字;如果所述目标预设文字是任一文字,将所述语音帧所在的位置确定为与相应文字对应的一个尖峰位置;如果连续的两个语音帧预测的文字为同一个文字,将在前的一个语音帧所在的位置确
定为一个尖峰位置;将每一所述尖峰位置确定为所述待识别语音对应的一个文字所处位置。6.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个文字所处位置,对所述至少一个定长编码语音块进行变长编码处理,得到至少一个变长编码语音块,包括:对所述至少一个定长编码语音块进行拼接处理,得到拼接语音信号;确定与每一所述文字所处位置对应的语音截取区间;以所述语音截取区间对应的语音帧数量为截取长度,将所述拼接语音信号划分成多个第二类语音信号片段;其中,每一所述第二类语音信号片段中包括的语音帧的位置与其他第二类语音信号片段中包括的语音帧的位置不同;依次对每一所述第二类语音信号片段进行前馈计算,得到所述至少一个变长编码语音块。7.根据权利要求6所述的方法,其特征在于,所述确定与每一所述文字所处位置对应的语音截取区间,包括:获取预设的后向切分参数;以所述文字所处位置为切分起点,以所述后向切分参数为后向延伸长度,确定每一所述文字所处位置对应的语音截取区间。8.根据权利要求6所述的方法,其特征在于,所述依次对每一所述第二类语音信号片段进行前馈计算,得到所述至少一个变长编码语音块,包括:对每一所述第二类语音信号片段进行卷积处理,得到每一所述第二类语音信号片段对应的局部信息;对每一所述第二类语音信号片段进行注意力处理,得到每一所述第二类语音信号片段对应的全局信息;对所述局部信息和所述全局信息进行信息结合,得到每一所述第二类语音信号片段对应的变长编码语音块。9.根据权利要求1至8任一项所述的方法,其特征在于,所述语音识别方法通过语音识别模型实现;所述语音识别模型包括定长编码网络、第一CTC解码网络、变长编码网络、第二CTC解码网络和注意力解码网络;所述定长编码网络用于对所述待识别语音进行所述定长编码处理;所述第...

【专利技术属性】
技术研发人员:朱紫薇单长浩张弼弘
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1