语音识别方法、装置、电子设备制造方法及图纸

技术编号:35673158 阅读:18 留言:0更新日期:2022-11-23 14:09
本申请公开了一种语音识别方法,属于计算机技术领域,有助于提升语音识别的效率。所述方法包括:通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;通过流式模型的解码模块,对所述第一隐层向量表示进行解码,确定实时获取的语音片段对应的实时识别结果;通过预先训练的非流式模型,基于实时获取的语音片段所属语音输入中各时刻获取的语音片段的第一隐层向量表示,对实时识别结果进行重打分,确定实时识别结果对应所语音输入整体的准确度评分。入整体的准确度评分。入整体的准确度评分。

【技术实现步骤摘要】
语音识别方法、装置、电子设备


[0001]本申请实施例涉及计算机
,特别是涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]端到端语音识别技术是一种重要的语音识别技术,在许多场景下取得了比传统语音识别方案更好的识别效果。例如,在设备端等一些应用场景(如语音搜索、语音输入法)中,需要对语音数据进行流式的识别,即用户一边说话,一边返回识别结果,应用流式端到端的语音识别技术即可实现对输入语音的实时识别。为了提高流式端到端语音识别技术的性能,现有技术中通常采用两遍编解码的方案,即先使用一个流式端到端模型进行第一遍编解码,得到得分最高的n个候选识别结果,然后使用另一个非流式的端到端模型对n个候选识别结果进行重打分,这是第二遍编解码。现有技术中采用的两遍编解码的方案至少存在以下缺陷:第一遍编解码采用的流式解码模型和第二遍编解码采用的非流式解码模型是两个不同的模型,需要对输入语音执行两遍编码和解码,语音识别运算量大,效率低。
[0003]可见,现有技术中的语音识别方法还需要改进。

技术实现思路

[0004]本申请实施例提供一种语音识别方法,有助于提升语音识别的效率。
[0005]第一方面,本申请实施例提供了一种语音识别方法,包括:
[0006]通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;
[0007]通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果;
[0008]通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分;其中,所述非流式模型共享所述流式模型的模型参数。
[0009]第二方面,本申请实施例提供了一种语音识别装置,包括:
[0010]流式编码模块,用于通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;
[0011]流式解码模块,用于通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果;
[0012]识别结果重打分模块,用于通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分;其中,所述非流式模型共享所述流式模型的模型参数。
[0013]第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的语音识别方法。
[0014]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的语音识别方法的步骤。
[0015]本申请实施例公开的语音识别方法,通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果;通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分,有助于提升语音识别的效率。
[0016]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0017]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0018]图1是本申请实施例一的语音识别方法流程图;
[0019]图2是本申请实施例一中测试阶段采用的流式模型结构示意图;
[0020]图3是本申请实施例一中训练阶段流式模型和非流式模型之间的数据传输示意图;
[0021]图4是本申请实施例二的语音识别装置结构示意图之一;
[0022]图5是本申请实施例二的语音识别装置结构示意图之二;
[0023]图6示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
[0024]图7示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]实施例一
[0027]本申请实施例公开的一种语音识别方法,如图1所示,所述方法包括:步骤110至步骤130。
[0028]步骤110,通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示。
[0029]本申请实施例所述的语音识别方法中采用的流式模型和非流式模型的结构,为端到端神经网络结构,例如可以采用AED模型做为基础的模型。现有技术中中,AED模型包括:编码模块和基于注意力机制的解码模块两个基础模块。在进行语音识别时,编码模块用于将输入的语音信号编码为高效的隐层表示向量,解码模块用于以编码模块输出的隐层表示向量为输入,以自回归的方式逐步解码出识别结果。
[0030]在具体实施过程中,本申请对现有技术中AED模型结构进行了改进。如图2所示,本申请实施例所述的语音识别方法中采用的流式模型的结构,为端到端神经网络结构,包括:编码模块210、解码模块220和预测模块230,其中,解码模块220进一步由注意力子模块2201和解码子模块2202构成。本申请的一些实施例中,所述编码模块210和所述解码子模块2202可以采用典型的编码、解码结构,如基于LSTM等循环网络结构,或Transformer,GLU等前馈网络结构;所述注意力子模块2201可以采用典型的注意力机制网络结构,如multihead scaled dot

production attention结构;所述预测模块230可以基于全连接网络构建。本申请实施例中对所述编码模块210、所述解码子模块2202、所述注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:通过预先训练的流式模型的编码模块,对实时获取的语音片段进行编码,输出所述实时获取的语音片段的第一隐层向量表示;通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果;通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分;其中,所述非流式模型共享所述流式模型的模型参数。2.根据权利要求1所述的方法,其特征在于,所述确定所述实时获取的语音片段对应的实时识别结果的步骤之后,还包括:输出得分最高的所述实时识别结果。3.根据权利要求1所述的方法,其特征在于,所述通过预先训练的非流式模型,基于所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分的步骤,包括:通过预先训练的非流式模型执行教师强制方法,以所述实时获取的语音片段所属语音输入中各时刻获取的语音片段的所述第一隐层向量表示,和所述实时识别结果作为输入,进行前向推理,对所述实时识别结果进行重打分,确定所述实时识别结果对应所述语音输入整体的准确度评分。4.根据权利要求3所述的方法,其特征在于,所述确定所述实时识别结果对应所述语音输入整体的准确度评分的步骤之后,还包括:输出所述实时识别结果相对于相应所述非流式识别结果的准确度评分。5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述流式模型的解码模块,对所述第一隐层向量表示进行解码,确定所述实时获取的语音片段对应的实时识别结果的步骤,包括:通过所述流式模型的预测模块,对所述第一隐层向量表示进行长度预测,预估所述第一隐层向量表示匹配的解码字符数量;通过所述流式模型的解码模块,基于所述第一隐层向量表示、所述第一隐层向量表示的上下文向量表示,以及所述解码字符数量,进行自回归解码,确定所述实时获取的语音片段对应的所述解码字符数量个字符各自的实时识别结果。6.根据权利要求1至4任一项所述的方法,其特征在于,所述流式模型和所述非流式模型是通过以下方法训练的:获取若干训练样本,其中,所述训练样本的样本数据为语音片...

【专利技术属性】
技术研发人员:丁科向鸿雨万广鲁
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1