解码图生成、语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34541954 阅读:19 留言:0更新日期:2022-08-13 21:38
本发明专利技术提供了一种解码图生成、语音识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及语音识别技术领域和深度学习技术领域。具体实现方案为:将待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,其中,待处理文本与待识别语音相对应;根据目标文本,创建主解码图,其中,主解码图中目标边的输入标签包括预定占位符;创建与预定占位符对应的子解码图,其中,子解码图中边的输出标签包括第二阿拉伯数字,第二阿拉伯数字与第一阿拉伯数字相关;根据主解码图和子解码图,生成目标解码图,其中,目标解码图用于生成待识别语音的语音识别结果。识别语音的语音识别结果。识别语音的语音识别结果。

【技术实现步骤摘要】
解码图生成、语音识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及语音识别
和深度学习
具体地,涉及一种解码图生成、语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,语音识别技术已经广泛应用于多个领域之中,例如,基于语音识别的智能机器人、基于语音识别的智能控制等。通过语音识别技术,可以对输入的语音信号进行识别,将语音信号转换成计算机能够处理的文本信息。

技术实现思路

[0003]本专利技术提供了一种解码图生成、语音识别方法、装置、电子设备及存储介质。
[0004]根据本专利技术的一方面,提供了一种用于语音识别的解码图生成方法,包括:将待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,其中,上述待处理文本与待识别语音相对应;根据上述目标文本,创建主解码图,其中,上述主解码图中目标边的输入标签包括上述预定占位符;创建与上述预定占位符对应的子解码图,其中,上述子解码图中边的输出标签包括第二阿拉伯数字,上述第二阿拉伯数字与上述第一阿拉伯数字相关;以及根据上述主解码图和上述子解码图,生成目标解码图,其中,上述目标解码图用于生成上述待识别语音的语音识别结果。
[0005]根据本专利技术的另一方面,提供了一种语音识别方法,包括:获取待识别语音;确定与上述待识别语音对应的待处理文本;利用如上所述的方法,生成目标解码图;以及根据上述目标解码图,得到上述待识别语音的语音识别结果。
[0006]根据本专利技术的另一方面,提供了一种用于语音识别的解码图生成装置,包括:替换模块,用于将待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,其中,上述待处理文本与待识别语音相对应;第一创建模块,用于根据上述目标文本,创建主解码图,其中,上述主解码图中目标边的输入标签包括上述预定占位符;第二创建模块,用于创建与上述预定占位符对应的子解码图,其中,上述子解码图中边的输出标签包括第二阿拉伯数字,上述第二阿拉伯数字与上述第一阿拉伯数字相关;以及第一生成模块,用于根据上述主解码图和上述子解码图,生成目标解码图,其中,上述目标解码图用于生成上述待识别语音的语音识别结果。
[0007]根据本专利技术的另一方面,提供了一种语音识别装置,包括:获取模块,用于获取待识别语音;获取模块,用于获取待识别语音;确定模块,用于确定与上述待识别语音对应的待处理文本;第二生成模块,用于利用如上所述的装置,生成目标解码图;以及识别模块,用于根据上述目标解码图,得到上述待识别语音的语音识别结果。
[0008]根据本专利技术的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如
本专利技术所述的方法。
[0009]根据本专利技术的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如本专利技术所述的方法。
[0010]根据本专利技术的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本专利技术所述的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本专利技术的限定。其中:图1示意性示出了根据本专利技术实施例的可以应用用于语音识别的解码图生成方法、语音识别方法及装置的示例性系统架构;图2示意性示出了根据本专利技术实施例的用于语音识别的解码图生成方法的流程图;图3示意性示出了根据本专利技术实施例的主解码图的示例示意图;图4A示意性示出了根据本专利技术实施例的子解码图创建策略的示例示意图;图4B示意性示出了根据本专利技术实施例的日期子解码图的示例示意图;图4C示意性示出了根据本专利技术实施例的时间子解码图的示例示意图;图4D示意性示出了根据本专利技术实施例的汉字与阿拉伯数字映射转换关系的示例示意图;图5示意性示出了根据本专利技术实施例的得到目标解码图的示例示意图;图6示意性示出了根据本专利技术实施例的语音识别方法的流程图;图7示意性示出了根据本专利技术实施例的语音识别过程的示例示意图;图8示意性示出了根据本专利技术实施例的用于语音识别的解码图生成装置的框图;图9示意性示出了根据本专利技术实施例的语音识别装置的框图;以及图10示出了可以用来实施本专利技术的实施例的用于语音识别的解码图生成方法和语音识别方法的示意性框图。
具体实施方式
[0013]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0014]在语音识别
,会涉及有关数字的识别,例如,时间、日期、电话或货币等。为了方便阅读,通常需要将非阿拉伯数字替换为阿拉伯数字。
[0015]在相关技术中,将非阿拉伯数字替换为阿拉伯数字的方法容易造成数字的误识别。例如,“十二点三十”出现的频率比较高,而“十二点二十”没有出现过,那么“十二点三十”在语言模型中的权重会非常高,在需要要识别“十二点二十”的情况下,容易识别为“十二点三十”。此外,在后处理阶段,需要将非阿拉伯数字替换为阿拉伯数字。例如,“十二点零
三”可以替换为“12:03”,也可以替换为“12.03”,导致存在歧义情况,影响了语音识别效果。
[0016]为此,本专利技术实施例提出了一种用于语音识别的解码图生成方法。通过将与待识别语音相对应的待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,因而无需确定第一阿拉伯数字的词频,因此,避免了阿拉伯数字词频的不均衡性。此外,通过根据得到的目标文本,创建边的输入标签包括预定占位符的主解码图,并创建与预定占位符对应的边的输出标签包括第二阿拉伯数字的子解码图,因而预定占位符能够表征第二阿拉伯数字的类型,因此,避免了歧义情况的发生。此外,通过根据主解码图和子解码图,得到用于生成待识别语音的语音识别结果目标解码图,提高了利用解码图来实现语音识别的识别效果。
[0017]本专利技术的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0018]在本专利技术的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0019]图1示意性示出了根据本专利技术实施例的可以应用用于语音识别的解码图生成方法、语音识别方法及装置的示例性系统架构。
[0020]需要注意的是,图1所示仅为可以应用本专利技术实施例的系统架构的示例,以帮助本领域技术人员理解本专利技术的
技术实现思路
,但并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音识别的解码图生成方法,包括:将待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,其中,所述待处理文本与待识别语音相对应;根据所述目标文本,创建主解码图,其中,所述主解码图中目标边的输入标签包括所述预定占位符;创建与所述预定占位符对应的子解码图,其中,所述子解码图中边的输出标签包括第二阿拉伯数字,所述第二阿拉伯数字与所述第一阿拉伯数字相关;以及根据所述主解码图和所述子解码图,生成目标解码图,其中,所述目标解码图用于生成所述待识别语音的语音识别结果。2.根据权利要求1所述的方法,其中,所述创建与所述预定占位符对应的子解码图,包括:确定所述预定占位符的占位符类型;以及基于子解码图创建策略,根据所述占位符类型和所述目标文本,创建所述子解码图。3.根据权利要求2所述的方法,其中,所述基于子解码图创建策略,根据所述占位符类型,创建所述子解码图,包括:基于所述子解码图创建策略,根据所述占位符类型和所述目标文本,创建辅助文本,其中,所述辅助文本包括所述第二阿拉伯数字;以及根据所述辅助文本和所述第二阿拉伯数字的读音方式,创建节点和用于连接所述节点的边,得到所述子解码图。4.根据权利要求1~3中任一项所述的方法,其中,所述根据所述目标文本,创建主解码图,包括:利用目标语言模型处理所述目标文本,得到所述主解码图,其中,所述目标语言模型是利用目标样本文本训练初始语言模型得到的,所述目标样本文本是将待处理样本文本中的阿拉伯数字替换为预定占位符得到的。5.根据权利要求1~3中任一项所述的方法,其中,所述将待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,包括:将所述待处理文本中的第一阿拉伯数字替换为非阿拉伯数字,得到中间文本;以及将与所述中间文本中的非阿拉伯数字替换为所述预定占位符,得到所述目标文本。6.根据权利要求1~3中任一项所述的方法,其中,所述根据所述主解码图和所述子解码图,生成目标解码图,包括:将所述主解码图中的预定占位符替换为所述子解码图,得到所述目标解码图。7.一种语音识别方法,包括:获取待识别语音;确定与所述待识别语音对应的待处理文本;利用权利要求1~6中任一项所述的方法,生成目标解码图;以及根据所述目标解码图,得到所述待识别语音的语音识别结果。8.一种用于语音识别的解码图生成装置,包括:替换模块,用于将待处理文本中的第一阿拉伯数字替换为预定占位符,得到目标文本,其中,所述待处理文本与待识别语音相对应;
第一创建模块,用于根据所述目标文本,创建主解码图,其中,所述主解码图中目标边的输入标签包括所述预定占位符;第二创建模块,用于创建与所述预定占位符对应的子解码图,其...

【专利技术属性】
技术研发人员:周羊张辉黄宇鑫陈泽裕文灿
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1