语音识别方法、装置、系统、电子设备及可读存储介质制造方法及图纸

技术编号：38198510 阅读：12 留言：0更新日期：2023-07-21 16:37

本发明专利技术提供了一种语音识别方法、装置、系统、电子设备及可读存储介质，以预设时间间隔依次获取音频流的多个音频片段，对每个音频片段进行识别得到多条识别结果，拼接获得所述音频流对应的多条候选识别结果序列，并从多条所述候选识别结果序列中选取目标识别结果序列。在对目标识别结果序列修正时，将多个候选识别结果序列结合音频流按照第一顺序以及第二顺序分别进行解码，第一顺序为从左至右解码，使得每个音频片段可以结合音频片段之前的信息进行解码计算，第二顺序为从右至左解码，使得每个音频片段可以结合音频片段之后的信息进行解码计算，使得可以利用音频流的完整的上下文信息对结果进行校正，提高语音识别模型的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、系统、电子设备及可读存储介质

[0001]本专利技术实施例涉及语音识别领域，尤其涉及一种语音识别方法、装置、系统、电子设备及可读存储介质。

技术介绍

[0002]流式语音识别(Streaming ASR)或者在线语音识别(Online ASR)是随着输入语音的数据不断增加，实时给出语音识别的文本结果的识别方式。
[0003]目前主流的深度学习流式语音识别模型大部分是基于自注意力机制的编码器(encoder)和解码器(decoder)的结构再结合流式预测模块，比如联结时序分类(Connectionist temporal classification，CTC)模块进行实现。在实时识别的过程中，先通过CTC的实时地输出每个音频片段的流式的识别结果，在一句话完整识别到后，再将整句话的编码器的输出、CTC的多个候选流式结果输入到解码器当中，得到修正后的最终非流式识别的结果。
[0004]上述方法在修正例如一句话的流式识别结果时，对于每一个音频片段仅能利用在该音频片段之前的音频信息，使得修正后的最终非流式识别的结果仅是参考了上文信息的结果，限制了语音识别的准确性。

技术实现思路

[0005]鉴于上述问题，提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音识别方法、装置、系统、电子设备及可读存储介质。
[0006]第一方面，本申请实施例公开了一种语音识别方法，所述方法包括：
[0007]以预设时间间隔依次获取音频流的多个音频片段，...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：以预设时间间隔依次获取音频流的多个音频片段，并生成每个所述音频片段对应的音频特征；按照所述音频片段的获取时间的顺序，获取多个所述音频特征中每个所述音频特征对应的多条识别结果；根据多条识别结果，拼接获得所述音频流对应的多条候选识别结果序列，并从多条所述候选识别结果序列中选取目标识别结果序列；将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码，得到第一识别结果，所述第一顺序为所述音频片段的获取时间顺序；将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码，得到第二识别结果，所述第二顺序与所述第一顺序相反；根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正，并展示校正后的目标识别结果序列。2.根据权利要求1所述的方法，其特征在于，所述获取多个所述音频特征中每个所述音频特征对应的多条识别结果，包括：对多个所述音频特征进行编码，生成多个语音编码特征；对多个所述语音编码特征进行解码，生成每个音频片段对应的多条识别结果。3.根据权利要求2所述的方法，其特征在于，所述根据多条识别结果，拼接获得所述音频流对应的多条候选识别结果序列，并从多条所述候选识别结果序列中选取目标识别结果序列，包括：选择每个所述音频片段对应的多条识别结果中的任意一条作为中间识别结果，并将每个所述音频片段对应的中间识别结果拼接后作为候选识别结果序列；从所有所述候选识别结果序列中选取与所述音频流的匹配值最大的候选识别结果序列作为目标识别结果序列。4.根据权利要求3所述的方法，其特征在于，所述从所有所述候选识别结果序列中选取与所述音频流的匹配值最大的候选识别结果序列作为目标识别结果序列，包括：获取所述多条识别结果分别与对应的音频片段的匹配值；选择所述匹配值最高的识别结果作为音频片段的实时识别结果；将每条音频片段对应的实时识别结果拼接后得到的候选识别结果序列作为目标识别结果序列。5.根据权利要求1所述的方法，其特征在于，所述将多条所述候选识别结果序列和所述音频流按照第一顺序进行解码，得到第一识别结果，包括：按照第一顺序遍历每一条候选识别结果序列中的每一个识别结果，根据遍历到的识别结果、所述遍历到的识别结果之前的其他识别结果以及音频流的编码结果进行解码计算，得到每一条候选识别结果序列对应的第一识别结果；所述将多条所述候选识别结果序列和所述音频流按照第二顺序进行解码，得到第二识别结果，包括：按照第二顺序遍历每一条候选识别结果序列中的每一个识别结果，根据遍历到的识别结果、所述遍历到的识别结果之后的其他识别结果以及音频流的编码结果进行解码计算，得到每一条候选识别结果序列对应的第二识别结果。
6.根据权利要求1所述的方法，其特征在于，所述根据所述第一识别结果和第二识别结果对所述目标识别结果序列校正，包括：根据每个候选识别结果序列，以及每个候选识别结果序列的第一识别结果和第二识别结果，确定每个候选识别结果序列的目标权重值；选择目标权重值最大的候选识别结果序列作为校正后的目标识别结果序列。7.根据权利要求6所述的方法，其特征在...

【专利技术属性】
技术研发人员：应以勒，
申请(专利权)人：北京奕斯伟计算技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人