语音识别方法、装置和存储介质及电子设备制造方法及图纸

技术编号:39241813 阅读:9 留言:0更新日期:2023-10-30 11:54
本申请公开了一种语音识别方法、装置和存储介质及电子设备。其中,该方法包括:获取对用户音频触发的语音识别请求,其中,语音识别请求用于请求对用户音频进行识别,并得到用户音频对应的标准文本信息;响应语音识别请求,对用户音频进行文本提取,得到原始文本信息,并确定原始文本信息中的各个文本字符对应的目标停顿时长;基于目标停顿时长,将原始文本信息处理为目标文本信息,并将目标文本信息确定为用户音频对应的标准文本信息,可应用在人工智能场景,涉及语音识别等技术。本申请解决了语音识别准确性较低的技术问题。语音识别准确性较低的技术问题。语音识别准确性较低的技术问题。

【技术实现步骤摘要】
语音识别方法、装置和存储介质及电子设备


[0001]本申请涉及计算机领域,具体而言,涉及一种语音识别方法、装置和存储介质及电子设备。

技术介绍

[0002]在语音识别场景中,通常会先将用户音频处理为纯文本,再将该纯文本输出为标准文本信息,但如果只对纯文本进行处理,会缺失说话人的声学特征,从而无法根据不同语境做出对应正确的判断,进而导致语音识别准确性较低的问题出现。因此,存在语音识别准确性较低的问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种语音识别方法、装置和存储介质及电子设备,以至少解决语音识别准确性较低的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种语音识别方法,包括:获取对用户音频触发的语音识别请求,其中,上述语音识别请求用于请求对上述用户音频进行识别,并得到上述用户音频对应的标准文本信息;响应上述语音识别请求,对上述用户音频进行文本提取,得到原始文本信息,并确定上述原始文本信息中的各个文本字符对应的目标停顿时长;基于上述目标停顿时长,将上述原始文本信息处理为目标文本信息,并将上述目标文本信息确定为上述用户音频对应的标准文本信息。
[0006]根据本申请实施例的另一方面,还提供了一种语音识别装置,包括:获取单元,用于获取对用户音频触发的语音识别请求,其中,上述语音识别请求用于请求对上述用户音频进行识别,并得到上述用户音频对应的标准文本信息;确定单元,用于响应上述语音识别请求,对上述用户音频进行文本提取,得到原始文本信息,并确定上述原始文本信息中的各个文本字符对应的目标停顿时长;处理单元,用于基于上述目标停顿时长,将上述原始文本信息处理为目标文本信息,并将上述目标文本信息确定为上述用户音频对应的标准文本信息。
[0007]作为一种可选的方案,上述确定单元,包括:转换模块,用于对上述原始文本信息进行转换处理,得到至少两个文本信息;第一确定模块,用于基于上述目标停顿时长,从上述至少两个文本信息中确定出上述目标文本信息。
[0008]作为一种可选的方案,上述第一确定模块,包括:第一获取子模块,用于获取上述至少两个文本信息之间的差异信息;第一确定子模块,用于确定上述差异信息中的各个文本字符对应的停顿时长;修正子模块,用于将上述停顿时长大于或等于预设阈值的文本字符作为分割字符,并利用上述分割字符对上述差异信息进行修正,得到修正后的文本信息;第二确定子模块,用于从上述至少两个文本信息中确定出与上述修正后的文本信息之间文本相似度更高的文本信息作为上述目标文本信息。
[0009]作为一种可选的方案,上述确定单元,包括:提取模块,用于对上述用户音频进行文本提取,得到有序的多个原始文本字符,其中,上述原始文本信息包含上述有序的多个原始文本字符;第二确定模块,用于确定上述多个原始文本字符中的各个文本字符对应的开始时间和结束时间,其中,上述开始时间为上述文本字符在上述用户音频中对应的有声起始时间,上述结束时间为上述文本字符在上述用户音频中对应的有声结束时间;第三确定模块,用于利用上述开始时间和上述结束时间,确定上述多个原始文本字符中的各个文本字符对应的上述目标停顿时长,其中,上述目标停顿时长为上述开始时间和上述结束时间之间的时间差。
[0010]作为一种可选的方案,上述第二确定模块,包括:执行子模块,用于执行以下步骤,直至得到上述多个原始文本字符中的各个文本字符对应的上述开始时间和上述结束时间:从上述多个原始文本字符中确定当前文本字符;获取上述当前文本字符对应的开始时间;在上述当前字符为上述多个原始文本字符中的最后一个字符的情况下,将上述多个原始文本字符的结束时间确定为上述当前文本字符对应的结束时间;在上述当前字符在上述多个原始文本字符中存在下一字符的情况下,获取上述下一字符对应的开始时间,并将上述下一字符对应的开始时间确定为上述当前文本字符对应的结束时间。
[0011]作为一种可选的方案,上述处理单元,包括:第一获取模块,用于基于上述目标停顿时长,获取上述原始文本信息中的标点符号,并确定上述标点符号与上述原始文本信息中的各个文本字符之间的关联关系;整合模块,用于按照上述关联关系,对上述标点符合和上述原始文本信息进行整合处理,得到上述目标文本信息。
[0012]作为一种可选的方案,上述装置还包括:第二获取模块,用于在上述基于上述目标停顿时长,获取上述原始文本信息中的标点符号之前,获取上述用户音频对应的目标语调信息;上述第一获取模块,包括:第二获取子模块,用于利用上述目标停顿时长和上述目标语调信息,获取上述原始文本信息中的目标标点符号,其中,上述目标标点符合包括停顿类型的标点符号和/或情绪类型的标点符号;第三确定子模块,用于利用上述目标停顿时长确定上述目标标点符号与上述原始文本信息中的各个文本字符之间的关联关系。
[0013]作为一种可选的方案,上述确定单元,包括:处理模块,用于基于上述目标停顿时长,将上述原始文本信息处理为标准格式的文本信息,并将上述标准格式的文本信息确定为上述用户音频对应的标准文本信息。
[0014]作为一种可选的方案,上述装置还包括:显示单元,用于在上述基于上述目标停顿时长,将上述原始文本信息处理为目标文本信息,并将上述目标文本信息确定为上述用户音频对应的标准文本信息之后,显示上述用户音频关联的字幕,其中,上述用户音频关联的字幕包括上述目标文本信息;或,控制单元,用于在上述基于上述目标停顿时长,将上述原始文本信息处理为目标文本信息,并将上述目标文本信息确定为上述用户音频对应的标准文本信息之后,控制目标设备执行指示操作,其中,上述目标设备为上述目标文本信息指示控制的设备,上述指示操作为上述目标文本信息指示执行的操作。
[0015]作为一种可选的方案,上述确定单元,包括:输入模块,用于将上述用户音频输入音频识别模型,其中,上述音频识别模型为利用多个样本进行训练得到的、用于识别音频的神经网络模型;输出模块,用于获取上述音频识别模型的输出结果,其中,上述输出结果包括上述原始文本信息,和上述原始文本信息中的各个文本字符对应的上述目标停顿时长。
[0016]根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上语音识别方法。
[0017]根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语音识别方法。
[0018]在本申请实施例中,获取对用户音频触发的语音识别请求,其中,上述语音识别请求用于请求对上述用户音频进行识别,并得到上述用户音频对应的标准文本信息;响应上述语音识别请求,对上述用户音频进行文本提取,得到原始文本信息,并确定上述原始文本信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取对用户音频触发的语音识别请求,其中,所述语音识别请求用于请求对所述用户音频进行识别,并得到所述用户音频对应的标准文本信息;响应所述语音识别请求,对所述用户音频进行文本提取,得到原始文本信息,并确定所述原始文本信息中的各个文本字符对应的目标停顿时长;基于所述目标停顿时长,将所述原始文本信息处理为目标文本信息,并将所述目标文本信息确定为所述用户音频对应的标准文本信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标停顿时长,将所述原始文本信息处理为目标文本信息,包括:对所述原始文本信息进行转换处理,得到至少两个文本信息;基于所述目标停顿时长,从所述至少两个文本信息中确定出所述目标文本信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标停顿时长,从所述至少两个文本信息中确定出所述目标文本信息,包括:获取所述至少两个文本信息之间的差异信息;确定所述差异信息中的各个文本字符对应的停顿时长;将所述停顿时长大于或等于预设阈值的文本字符作为分割字符,并利用所述分割字符对所述差异信息进行修正,得到修正后的文本信息;从所述至少两个文本信息中确定出与所述修正后的文本信息之间文本相似度更高的文本信息作为所述目标文本信息。4.根据权利要求1所述的方法,其特征在于,所述对所述用户音频进行文本提取,得到原始文本信息,并确定所述原始文本信息中的各个文本字符对应的目标停顿时长,包括:对所述用户音频进行文本提取,得到有序的多个原始文本字符,其中,所述原始文本信息包含所述有序的多个原始文本字符;确定所述多个原始文本字符中的各个文本字符对应的开始时间和结束时间,其中,所述开始时间为所述文本字符在所述用户音频中对应的有声起始时间,所述结束时间为所述文本字符在所述用户音频中对应的有声结束时间;利用所述开始时间和所述结束时间,确定所述多个原始文本字符中的各个文本字符对应的所述目标停顿时长,其中,所述目标停顿时长为所述开始时间和所述结束时间之间的时间差。5.根据权利要求4所述的方法,其特征在于,所述确定所述多个原始文本字符中的各个文本字符对应的开始时间和结束时间,包括:执行以下步骤,直至得到所述多个原始文本字符中的各个文本字符对应的所述开始时间和所述结束时间:从所述多个原始文本字符中确定当前文本字符;获取所述当前文本字符对应的开始时间;在所述当前字符为所述多个原始文本字符中的最后一个字符的情况下,将所述多个原始文本字符的结束时间确定为所述当前文本字符对应的结束时间;在所述当前字符在所述多个原始文本字符中存在下一字符的情况下,获取所述下一字符对应的开始时间,并将所述下一字符对应的开始时间确定为所述当前文本字符对应的结
束时间。6.根据权利要求1所述的方法,其特征在于,所述基于所述目标停顿时长,将所述原始文本信息处理为目标文本信息,包括:基于所述目标停顿时长,获取所述原始文本信息中的标点符号,并确定所述标点符号与所述原始文本信息中的各个文本字符之间的关联关系;按照所述关联关系,对所述标点符合和所述原始文本信息进行整合处理,得到所述目标...

【专利技术属性】
技术研发人员:朱运
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1