语音识别方法、装置、系统、电子设备及可读存储介质制造方法及图纸

技术编号:38198510 阅读:12 留言:0更新日期:2023-07-21 16:37
本发明专利技术提供了一种语音识别方法、装置、系统、电子设备及可读存储介质,以预设时间间隔依次获取音频流的多个音频片段,对每个音频片段进行识别得到多条识别结果,拼接获得所述音频流对应的多条候选识别结果序列,并从多条所述候选识别结果序列中选取目标识别结果序列。在对目标识别结果序列修正时,将多个候选识别结果序列结合音频流按照第一顺序以及第二顺序分别进行解码,第一顺序为从左至右解码,使得每个音频片段可以结合音频片段之前的信息进行解码计算,第二顺序为从右至左解码,使得每个音频片段可以结合音频片段之后的信息进行解码计算,使得可以利用音频流的完整的上下文信息对结果进行校正,提高语音识别模型的准确性。确性。确性。

【技术实现步骤摘要】
语音识别方法、装置、系统、电子设备及可读存储介质


[0001]本专利技术实施例涉及语音识别领域,尤其涉及一种语音识别方法、装置、系统、电子设备及可读存储介质。

技术介绍

[0002]流式语音识别(Streaming ASR)或者在线语音识别(Online ASR)是随着输入语音的数据不断增加,实时给出语音识别的文本结果的识别方式。
[0003]目前主流的深度学习流式语音识别模型大部分是基于自注意力机制的编码器(encoder)和解码器(decoder)的结构再结合流式预测模块,比如联结时序分类(Connectionist temporal classification,CTC)模块进行实现。在实时识别的过程中,先通过CTC的实时地输出每个音频片段的流式的识别结果,在一句话完整识别到后,再将整句话的编码器的输出、CTC的多个候选流式结果输入到解码器当中,得到修正后的最终非流式识别的结果。
[0004]上述方法在修正例如一句话的流式识别结果时,对于每一个音频片段仅能利用在该音频片段之前的音频信息,使得修正后的最终非流式识别的结果仅是参考了上文信息的结果,限制了语音识别的准确性。

技术实现思路

[0005]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别方法、装置、系统、电子设备及可读存储介质。
[0006]第一方面,本申请实施例公开了一种语音识别方法,所述方法包括:
[0007]以预设时间间隔依次获取音频流的多个音频片段,并生成每个所述音频片段对应的音频特征;
[0008]按照所述音频片段的获取时间的顺序,获取多个所述音频特征中每个所述音频特征对应的多条识别结果;根据多条识别结果,拼接获得所述音频流对应的多条候选识别结果序列,并从多条所述候选识别结果序列中选取目标识别结果序列;
[0009]将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码,得到第一识别结果,所述第一顺序为所述音频片段的获取时间顺序;
[0010]将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码,得到第二识别结果,所述第二顺序与所述第一顺序相反;
[0011]根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正,并展示校正后的目标识别结果序列。
[0012]第二方面,本申请实施例公开了一种语音识别装置,所述装置包括:
[0013]获取模块,用于以预设时间间隔依次获取音频流的多个音频片段,并生成每个所述音频片段对应的音频特征;
[0014]第一识别模块,用于按照所述音频片段的获取时间的顺序,获取多个所述音频特
征中每个所述音频特征对应的多条识别结果;根据多条识别结果,拼接获得所述音频流对应的多条候选识别结果序列,并从多条所述候选识别结果序列中选取目标识别结果序列;
[0015]第二识别模块,用于将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码,得到第一识别结果,所述第一顺序为所述音频片段的获取时间顺序;
[0016]第三识别模块,用于将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码,得到第二识别结果,所述第二顺序与所述第一顺序相反;
[0017]校正模块,用于根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正,并展示校正后的目标识别结果序列。
[0018]第三方面,本申请实施例还公开了一种语音识别系统,所述系统包括:采集装置,语音识别模型和显示装置,所述语音识别模型包括:第一解码器、第二解码器和第三解码器;
[0019]其中,所述采集装置用于以预设时间间隔依次获取音频流的多个音频片段,所述语音识别模型根据所述音频片段生成每个所述音频片段对应的音频特征,所述第三解码器按照所述音频片段的获取时间的顺序,获取多个所述音频特征中每个所述音频特征对应的多条识别结果;所述语音识别模型根据多条识别结果,拼接获得所述音频流对应的多条候选识别结果序列,并从多条所述候选识别结果序列中选取目标识别结果序列;所述第一解码器将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码,得到第一识别结果;所述第二解码器将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码,得到第二识别结果;所述语音识别模型根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正后,所述显示装置展示校正后的目标识别结果序列。
[0020]第四方面,本申请实施例还公开了一种电子设备,包括处理器和存储器、所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0021]第五方面,本申请实施例还公开了一种可读存储介质,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0022]本申请实施例中,在对流式识别的结果进行修正时,将流式识别过程中得到的多个候选识别结果结合音频流的编码分别按照第一顺序以及第二顺序解码,且相对于音频流,第一顺序为从左至右解码,即按照音频流中每个音频片段的获取顺序解码,使得每个音频片段可以结合音频片段之前的信息进行解码计算,第二顺序为从右至左解码,即从音频流的最后一个音频片段开始进行解码,使得每个音频片段可以结合音频片段之后的信息进行解码计算,通过两次顺序相反的解码操作,使得对目标识别结果进行校正时,可以利用音频流的完整的上下文信息,提高语音识别模型的准确性,进而对提高目标识别结果修正的准确性。
附图说明
[0023]图1是本专利技术实施例提供的一种语音识别方法步骤流程图;
[0024]图2是本专利技术实施例提供的一种流式语音识别过程;
[0025]图3是本专利技术实施例提供的又一种语音识别方法步骤流程图;
[0026]图4是本专利技术实施例提供的一种语音识别装置框图;
[0027]图5是本专利技术另一个实施例的终端的框图;
[0028]图6是本专利技术另一个实施例的终端的结构示意图。
具体实施方式
[0029]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0030]参考图1,其示出了本申请实施例提供的语音识别方法的步骤流程图,所述方法包括:
[0031]步骤101,以预设时间间隔依次获取音频流的多个音频片段,并生成每个所述音频片段对应的音频特征。
[0032]在本专利技术实施例中,流式语音识别模型(Streaming ASR Model)是指可以在处理音频流的过程中,支持实时返回识别结果的一类模型。与之相对的是非流式模型,它必须在处理完整句音频流后才能返回结果。流式模型可以更好地用于需要实时获取识别结果的场景,例如直播实时字幕、会议实时记录、语音输入、语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:以预设时间间隔依次获取音频流的多个音频片段,并生成每个所述音频片段对应的音频特征;按照所述音频片段的获取时间的顺序,获取多个所述音频特征中每个所述音频特征对应的多条识别结果;根据多条识别结果,拼接获得所述音频流对应的多条候选识别结果序列,并从多条所述候选识别结果序列中选取目标识别结果序列;将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码,得到第一识别结果,所述第一顺序为所述音频片段的获取时间顺序;将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码,得到第二识别结果,所述第二顺序与所述第一顺序相反;根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正,并展示校正后的目标识别结果序列。2.根据权利要求1所述的方法,其特征在于,所述获取多个所述音频特征中每个所述音频特征对应的多条识别结果,包括:对多个所述音频特征进行编码,生成多个语音编码特征;对多个所述语音编码特征进行解码,生成每个音频片段对应的多条识别结果。3.根据权利要求2所述的方法,其特征在于,所述根据多条识别结果,拼接获得所述音频流对应的多条候选识别结果序列,并从多条所述候选识别结果序列中选取目标识别结果序列,包括:选择每个所述音频片段对应的多条识别结果中的任意一条作为中间识别结果,并将每个所述音频片段对应的中间识别结果拼接后作为候选识别结果序列;从所有所述候选识别结果序列中选取与所述音频流的匹配值最大的候选识别结果序列作为目标识别结果序列。4.根据权利要求3所述的方法,其特征在于,所述从所有所述候选识别结果序列中选取与所述音频流的匹配值最大的候选识别结果序列作为目标识别结果序列,包括:获取所述多条识别结果分别与对应的音频片段的匹配值;选择所述匹配值最高的识别结果作为音频片段的实时识别结果;将每条音频片段对应的实时识别结果拼接后得到的候选识别结果序列作为目标识别结果序列。5.根据权利要求1所述的方法,其特征在于,所述将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码,得到第一识别结果,包括:按照第一顺序遍历每一条候选识别结果序列中的每一个识别结果,根据遍历到的识别结果、所述遍历到的识别结果之前的其他识别结果以及音频流的编码结果进行解码计算,得到每一条候选识别结果序列对应的第一识别结果;所述将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码,得到第二识别结果,包括:按照第二顺序遍历每一条候选识别结果序列中的每一个识别结果,根据遍历到的识别结果、所述遍历到的识别结果之后的其他识别结果以及音频流的编码结果进行解码计算,得到每一条候选识别结果序列对应的第二识别结果。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正,包括:根据每个候选识别结果序列,以及每个候选识别结果序列的第一识别结果和第二识别结果,确定每个候选识别结果序列的目标权重值;选择目标权重值最大的候选识别结果序列作为校正后的目标识别结果序列。7.根据权利要求6所述的方法,其特征在...

【专利技术属性】
技术研发人员:应以勒
申请(专利权)人:北京奕斯伟计算技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1