语音识别方法、装置、终端设备及计算机可读存储介质制造方法及图纸

技术编号:38535445 阅读:11 留言:0更新日期:2023-08-19 17:06
本申请适用于终端技术领域,尤其涉及一种语音识别方法、装置、终端设备及计算机可读存储介质。该方法中,终端设备获取待识别语音后,可以利用端到端的语音识别模型对待识别语音进行语音识别,得到识别结果。其中,对于语音识别模型的每一次解码,终端设备可以根据N

【技术实现步骤摘要】
语音识别方法、装置、终端设备及计算机可读存储介质


[0001]本申请属于终端
,尤其涉及一种语音识别方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]基于端到端的语音识别技术使用一个神经网络模型直接完成从语音到文字的转换,例如,基于注意力(Attention)的神经网络模型。其中,基于Attention的神经网络模型一般包含一个编码器和一个基于Attention机制的解码器。编码器把语音特征序列转换为隐状态向量序列。解码器通过自回归的方式和Attention机制,把注意力集中到其中的一部分隐状态向量序列上,单步输出解码结果。在解码过程中,一般是采用集束搜索(BeamSearch)获取概率最高的前几个字/词/句子作为候选解码结果。即神经网络模型是基于概率在解码空间中搜索,具有不确定性,针对口音等发音不准确的情况,可能会给出不符合语法的解码结果,导致语音识别准确性较低。

技术实现思路

[0003]本申请实施例提供了一种语音识别方法、装置、终端设备及计算机可读存储介质,可以解决语音识别准确性较低的问题。
[0004]第一方面,本申请实施例提供了一种语音识别方法,应用于终端设备,所述方法可以包括:
[0005]所述终端设备获取待识别语音;
[0006]所述终端设备利用语音识别模型对所述待识别语音进行语音识别,得到识别结果;
[0007]其中,所述语音识别模型为端到端的语音识别模型,在利用所述语音识别模型对所述待识别语音进行语音识别时,对于所述语音识别模型的每一次解码,所述终端设备根据N

gram语言模型,确定候选解码结果对应的第一概率,所述候选解码结果对应的第一概率用于确定所述语音识别模型下一次解码得到的候选解码结果。
[0008]在上述的语音识别方法中,终端设备获取待识别语音后,可以利用端到端的语音识别模型对待识别语音进行语音识别,得到识别结果。其中,在利用语音识别模型对待识别语音进行语音识别时,对于语音识别模型的每一次解码,终端设备可以根据N

gram语言模型,确定候选解码结果对应的第一概率,以使得语音识别模型可以根据候选解码结果对应的第一概率确定下一次解码得到的候选解码结果。即本申请实施例中,在通过端到端的语音识别模型进行语音识别时,可以根据N

gram语言模型,来确定候选解码结果对应的第一概率,使得解码结果符合语法结构,降低口音等发音不准确造成的解码错误,提高语音识别的准确率,提升用户体验。
[0009]在一种可能的实现方式中,所述终端设备根据N

gram语言模型,确定候选解码结果对应的第一概率,可以包括:
[0010]所述终端设备获取所述候选解码结果对应的第二概率,所述候选解码结果对应的第二概率为所述语音识别模型确定的;
[0011]所述终端设备根据N

gram语言模型和所述候选解码结果对应的第二概率,确定所述候选解码结果对应的第一概率。
[0012]示例性的,所述终端设备根据N

gram语言模型和所述候选解码结果对应的第二概率,确定所述候选解码结果对应的第一概率,可以包括:
[0013]所述终端设备根据N

gram语言模型,确定所述候选解码结果对应的第一权重;
[0014]所述终端设备根据所述候选解码结果对应的第二概率和第一权重,确定所述候选解码结果对应的第一概率。
[0015]可选的,所述终端设备根据N

gram语言模型,确定所述候选解码结果对应的第一权重,可以包括:
[0016]当所述候选解码结果存在于所述N

gram语言模型时,所述终端设备确定所述N

gram语言模型中的所述候选解码结果对应的第二权重,并根据所述第二权重,确定所述候选解码结果对应的第一权重;
[0017]当所述候选解码结果不存在于所述N

gram语言模型时,所述终端设备确定所述候选解码结果对应的第一权重为预设值。
[0018]示例性的,所述终端设备根据所述候选解码结果对应的第二概率和第一权重,确定所述候选解码结果对应的第一概率,可以包括:
[0019]所述终端设备根据所述候选解码结果,确定所述第一权重对应的缩放值;
[0020]所述终端设备根据所述第一权重、所述第一权重对应的缩放值,以及所述候选解码结果对应的第二概率,确定所述候选解码结果对应的第一概率。
[0021]可选的,所述终端设备根据所述候选解码结果,确定所述第一权重对应的缩放值,可以包括:
[0022]所述终端设备确定所述候选解码结果的长度,并根据所述候选解码结果的长度,确定所述第一权重对应的缩放值。
[0023]在一种可能的实现方式中,所述方法还可以包括:
[0024]所述终端设备获取目标文本,所述目标文本与所述待识别语音对应的文本内容属于相同领域;
[0025]所述终端设备通过所述目标文本训练所述N

gram语言模型,得到训练完成的N

gram语言模型。
[0026]第二方面,本申请实施例提供了一种语音识别装置,应用于终端设备,所述装置可以包括:
[0027]语音获取模块,用于获取待识别语音;
[0028]语音识别模块,用于利用语音识别模型对所述待识别语音进行语音识别,得到识别结果;
[0029]其中,所述语音识别模型为端到端的语音识别模型,在利用所述语音识别模型对所述待识别语音进行语音识别时,对于所述语音识别模型的每一次解码,所述语音识别模块,还用于根据N

gram语言模型,确定候选解码结果对应的第一概率,所述候选解码结果对应的第一概率用于确定所述语音识别模型下一次解码得到的候选解码结果。
[0030]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的语音识别方法。
[0031]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的语音识别方法。
[0032]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的语音识别方法。
[0033]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
[0034]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,应用于终端设备,其特征在于,所述方法包括:所述终端设备获取待识别语音;所述终端设备利用语音识别模型对所述待识别语音进行语音识别,得到识别结果;其中,所述语音识别模型为端到端的语音识别模型,在利用所述语音识别模型对所述待识别语音进行语音识别时,对于所述语音识别模型的每一次解码,所述终端设备根据N

gram语言模型,确定候选解码结果对应的第一概率,所述候选解码结果对应的第一概率用于确定所述语音识别模型下一次解码得到的候选解码结果。2.根据权利要求1所述的方法,其特征在于,所述终端设备根据N

gram语言模型,确定候选解码结果对应的第一概率,包括:所述终端设备获取所述候选解码结果对应的第二概率,所述候选解码结果对应的第二概率为所述语音识别模型确定的;所述终端设备根据N

gram语言模型和所述候选解码结果对应的第二概率,确定所述候选解码结果对应的第一概率。3.根据权利要求2所述的方法,其特征在于,所述终端设备根据N

gram语言模型和所述候选解码结果对应的第二概率,确定所述候选解码结果对应的第一概率,包括:所述终端设备根据N

gram语言模型,确定所述候选解码结果对应的第一权重;所述终端设备根据所述候选解码结果对应的第二概率和第一权重,确定所述候选解码结果对应的第一概率。4.根据权利要求3所述的方法,其特征在于,所述终端设备根据N

gram语言模型,确定所述候选解码结果对应的第一权重,包括:当所述候选解码结果存在于所述N

gram语言模型时,所述终端设备确定所述N

gram语言模型中的所述候选解码结果对应的第二权重,并根据所述第二权重,确定所述候选解码结果对应的第一权重;当所述候选解码结果不存在于所述N

gram语言模型时,所述终端设备确定所述候选解码结...

【专利技术属性】
技术研发人员:杨显杰黄东延
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1