语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38648719 阅读:13 留言:0更新日期:2023-09-02 22:38
本公开涉及语音识别技术领域,公开了语音识别方法、装置、计算机设备及存储介质,本公开提供的方法包括获取待识别语音;基于所述待识别语音进行编码处理,得到声学编码信息;对所述声学编码信息分别进行对应于各个语种的信息权重预测,得到与所述语种一一对应的信息权重,所述信息权重包括所述语种的声学信息以及边界;融合所述各个语种的信息权重,得到融合信息权重;基于所述融合信息权重进行解码处理,得到语音识别结果。该方法通过对各个语种进行独立的声学边界的预测,能够在语音识别过程中区分各个语种的声学边界,提高了语音识别结果的准确性。结果的准确性。结果的准确性。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质


[0001]本公开涉及语音识别领域,具体涉及语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]语码转换(Code

switching,简称为CS)是指在语音输出中交替使用两种或多种语言,而现有的大多数语音识别都专注于单语种的语音识别,即,依次只能处理一种语言,因此,这种语音识别方式难以适用于两种或多种语言混合的场景中,从而导致语音识别错误。

技术实现思路

[0003]有鉴于此,本公开提供了一种语音识别方法、装置、计算机设备及存储介质,以解决语音识别的准确率较低的问题。
[0004]第一方面,本公开提供了一种语音识别方法,所述方法包括:
[0005]获取待识别语音;
[0006]基于所述待识别语音进行编码处理,得到声学编码信息;
[0007]对所述声学编码信息分别进行对应于各个语种的信息权重预测,得到与所述语种一一对应的信息权重,所述信息权重包括所述语种的声学信息以及边界;
[0008]融合所述各个语种的信息权重,得到融合信息权重;
[0009]基于所述融合信息权重进行解码处理,得到语音识别结果。
[0010]第二方面,本公开提供了一种语音识别装置,所述装置包括:
[0011]语音获取模块,用于获取待识别语音;
[0012]编码模块,用于基于所述待识别语音进行编码处理,得到声学编码信息;
[0013]权重预测模块,用于对所述声学编码信息分别进行对应于各个语种的信息权重预测,得到与所述语种一一对应的信息权重,所述信息权重包括所述语种的声学信息以及边界;
[0014]融合模块,用于融合所述各个语种的信息权重,得到融合信息权重;
[0015]解码模块,用于基于所述融合信息权重进行解码处理,得到语音识别结果。
[0016]第三方面,本公开提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的语音识别方法。
[0017]第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语音识别方法。
[0018]本公开实施例提供的语音识别方法,针对各个语种分别进行信息权重预测,得到各个语种的声学信息以及边界,即,通过对各个语种进行独立的声学边界的预测,能够在语音识别过程中区分各个语种的声学边界,且在分别得到各个语种的信息权重之后再对其进
行融合,得到融合信息权重,在此基础上进行解码处理,能够保证在不丧失各个语种的融合情况下得到语音识别的结果,提高了语音识别结果的准确性。
附图说明
[0019]为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是根据本公开实施例的语音识别方法的流程示意图;
[0021]图2是根据本公开实施例的目标语音识别模型的训练方法的流程示意图;
[0022]图3是根据本公开实施例的目标语音识别模型的示意图;
[0023]图4是根据本公开实施例的信息权重预测单元的示意图;
[0024]图5a

图5b分别是根据本公开实施例的第一解码器以及第二解码器的示意图;
[0025]图6是根据本公开实施例的语音识别模型的训练方法的流程示意图;
[0026]图7是根据本公开实施例的语音识别模型的训练示意图;
[0027]图8是根据本公开实施例的语种变化检测的示意图;
[0028]图9是根据本公开实施例的语音识别装置的结构框图;
[0029]图10是本公开实施例的计算机设备的硬件结构示意图。
具体实施方式
[0030]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0031]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0032]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0033]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0034]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0035]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0036]在相关技术中,基于语码转换的语音识别(Code

switching Speech Recognition,简称为CSSR)是在混合语音识别框架上进行的。然而,随着端到端模型的广泛使用,在一些技术中采用端到端(E2E)的策略来解决CSSR任务。其中,基于注意力的E2E模型首先应用于CSSR任务,为了提高语音识别准确率,语种识别被用作辅助任务。此外,语种感知的编码器结构和语种感知训练的策略被应用于联结时间分类(CTC)模型,以实现在编码过程中解开语种相关的信息并生成帧级语语种感知表示。针对解码器,与语种相关的注意力机制、非自回归结构和基于内部语言模型估计的语言模型都被用来减轻语码转换所带来的混乱。
[0037]例如,以中文和英文的混合语音为例,普通话字符通常表示普通话中的单个音节,并且它们的声学边界清晰。英文子词是在不参考任何声学知识的情况下获得的,并且它们的声学边界可能是模糊的。因此,为了在CSSR中获得中文和英文的良好声学边界,进行语种相关的声学边界学习是有必要的。
[0038]基于此,本公开实施例提供了一种语音识别方法,通过分别对待识别语音中各个语种的信息权重进行预测,得到与语种一一对应的信息权重,对各个语种的信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别语音;基于所述待识别语音进行编码处理,得到声学编码信息;对所述声学编码信息分别进行对应于各个语种的信息权重预测,得到与所述语种一一对应的信息权重,所述信息权重包括所述语种的声学信息以及边界;融合所述各个语种的信息权重,得到融合信息权重;基于所述融合信息权重进行解码处理,得到语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述语音识别方法是通过训练得到的目标语音识别模型得到,所述目标语音识别模型是通过如下步骤训练得到的:获取样本语音以及所述样本语音的标签,所述标签包括用于表征目标文本;将所述样本语音输入预设语音识别模型中,得到预测文本,所述预设语音识别模型用于预测所述各个语种的预测信息权重,并对融合后的所述预测信息权重进行解码得到所述预测文本,所述预测信息权重包括所述样本语音中各个语种的声学信息以及边界;基于所述预测文本与所述目标文本进行损失计算,得到损失计算结果;基于损失计算结果对所述预设语音识别模型的参数进行迭代更新,以确定所述目标语音识别模型。3.根据权利要求2所述的方法,其特征在于,所述预设语音识别模型包括编码器、与语种一一对应的信息权重预测单元、融合单元以及解码处理单元,所述信息权重预测单元用于预测所述语种的信息权重,所述融合单元用于对各个语种的预测信息权重进行融合得到预测融合信息权重,所述解码处理单元用于基于所述预测融合信息权重进行解码处理得到所述预测文本。4.根据权利要求3所述的方法,其特征在于,所述解码处理单元包括连续整合分发单元以及第一解码器,所述预测文本的确定方式包括:利用所述连续整合分发单元对所述预测融合信息权重进行处理;利用所述第一解码器对所述连续整合分发单元的处理结果进行解码,确定所述预测文本。5.根据权利要求2所述的方法,其特征在于,所述预测融合信息权重的确定方式包括:获取预设信息丢失率;基于所述预设信息丢失率,分别对各个语种的预测信息权重进行随机失活处理,得到所述各个语种对应的处理结果;对所述各个语种对应的处理结果进行融合,得到所述预测融合信息权重。6.根据权利要求2所述的方法,其特征在于,所述基于所述预测文本与所述目标文本进行损失计算,得到损失计算结果,包括:获取所述标签中字符的目标数量;基于所述目标数量与所述预测融合信息权重进行损失计算,得到第一损失计算结果;基于所述预测文本以及所述目标文本进行损失计算,得到第二损失计算结果;基于所述第一损失计算结果与所述第二损失计算结果的融合,确定所述损失计算结果。7.根据权利要求6所述的方法,其特征在于,所述标签还包括所述样本语音的语种切换
标注,所述基于所述第一损失计算结果与所述第二损失计算结果的融合,确定所述损失计算结果,包括:对所述预测融合信息权重进行语种变化检测,确定语种变...

【专利技术属性】
技术研发人员:范志赟董林昊马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1