System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语音识别方法、装置、设备及存储介质制造方法及图纸_技高网

一种语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:40602161 阅读:9 留言:0更新日期:2024-03-12 22:07
本申请公开了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取用户输入的语音文件所对应的第一文本;在用户输入所述语音文件时获取前台应用的界面图像上的第二文本;将所述第一文本转换为第一拼音字符串,以及将所述第二文本转换为第二拼音字符串;在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的情况下,将所述第一文本中与所述相同字符串对应的文本替换为所述第二文本中与所述相同字符串对应的文本,得到校正后的第一文本;将所述校正后的第一文本确定为所述语音文件的输出文本。本申请采用上述方法,通过前台应用的界面文本信息,可以实现对输入的语音对应的识别文本进行校正,从而提高语音识别的准确率。

【技术实现步骤摘要】

本申请涉及语音识别,尤其涉及一种语音识别方法、装置、设备及存储介质


技术介绍

1、随着科学技术的不断进步,语音识别技术在日常生活中的应用越来越广泛。但是,由于各种原因,如噪声、口音、语速和方言等因素的影响,语音识别的准确率并不高。现有技术的语音识别方案采用声学模型改进、语言模型优化、特征提取优化和在线离线定制识别等方法提高语音识别的准确率。但是,现有技术的语音识别方案存在一定的局限性,需要依赖热词上传和语音识别定制,且对低频词汇的识别不够准确。


技术实现思路

1、有鉴于此,本申请实施例提供一种语音识别方法、装置、设备及存储介质。

2、本申请实施例的技术方案是这样实现的:

3、第一方面,本申请实施例提供一种语音识别方法,包括:获取用户输入的语音文件所对应的第一文本;在用户输入所述语音文件时获取前台应用的界面图像上的第二文本;将所述第一文本转换为第一拼音字符串,以及将所述第二文本转换为第二拼音字符串;在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的情况下,将所述第一文本中与所述相同字符串对应的文本替换为所述第二文本中与所述相同字符串对应的文本,得到校正后的第一文本;将所述校正后的第一文本确定为所述语音文件的输出文本。

4、通过采取本申请的技术方案,首先,获取用户输入的语音文件所对应的第一文本,并在用户输入语音文件时获取前台应用的界面图像上的第二文本;其次,将第一文本转换为第一拼音字符串,以及将第二文本转换为第二拼音字符串;然后,在第一拼音字符串和第二拼音字符串存在相同字符串的情况下,将第一文本中与相同字符串对应的文本替换为第二文本中与相同字符串对应的文本,得到校正后的第一文本,这里通过将第一文本中与相同字符串对应的文本替换为第二文本中与相同字符串对应的文本,实现对第一文本的校正;最后,将校正后的第一文本确定为语音文件的输出文本,这样,得到了校正后的语音文件的输出文本。通过本技术方案,在不依赖热词上传和语音识别定制的情况下,实现了对输入的语音文件对应的第一文本的校正,从而可以提高对低频词汇的识别率,进而提高了语音识别的准确率。

5、在一些实施例中,所述的语音识别方法还包括:在所述第一拼音字符串和所述第二拼音字符串不存在相同字符串的情况下,将所述第一文本确定为所述语音文件的输出文本。

6、根据上述技术手段,在第一拼音字符串和第二拼音字符串不存在相同字符串的情况下,无需对第一文本进行校正,直接将第一文本确定为语音文件的输出文本,并下发至语音助手软件中,实现相关功能即可。

7、在一些实施例中,所述前台应用包括至少一个,所述在用户输入所述语音文件时获取前台应用的界面图像上的第二文本,包括:获取至少一个所述前台应用的业务服务类型,以及所述语音文件的业务服务类型;从至少一个所述前台应用中,将与所述语音文件的业务服务类型相同的前台应用,确定为目标前台应用;将所述目标前台应用的已展示界面上的文本确定为所述第二文本。

8、根据上述技术手段,首先,获取至少一个前台应用的业务服务类型,以及语音文件的业务服务类型,这样,方便后续判断前台应用和语音文件的业务服务类型是否相同;其次,从至少一个前台应用中,将与语音文件的业务服务类型相同的前台应用,确定为目标前台应用,这样,将与用户输入的语音文件业务服务类型相同的目标前台应用筛选出来,方便后续对目标前台应用的已展示界面图像进行截取;最后,将目标前台应用的已展示界面上的文本确定为第二文本。通过本技术方案,将与语音文件的业务服务类型相同的前台应用的已展示界面上的文本转换为第二文本,作为后续对用户输入的语音文件对应的第一文本进行校正的依据。

9、在一些实施例中,所述将所述目标前台应用的已展示界面上的文本确定为所述第二文本,包括:确定用户输入所述语音文件的输入时间段;基于所述输入时间段,确定目标前台应用的界面图像;基于所述目标前台应用的界面图像,生成所述第二文本。

10、根据上述技术手段,首先,确定用户输入语音文件的输入时间段,这样,将输入时间段作为后续截取前台应用的界面图像的时间范围;然后,基于输入时间段,确定目标前台应用的界面图像,这样,在输入时间段对应的时间范围内,截取目标前台应用的界面图像,作为后续生成第二文本的依据;最后,基于目标前台应用的界面图像,生成第二文本。通过本技术方案,在用户输入语音文件的输入时间段的时间范围内,将目标前台应用的界面图像转化为第二文本,作为后续对用户输入的语音文件所对应的第一文本进行校正的依据。

11、在一些实施例中,所述基于所述输入时间段,确定目标前台应用的界面图像,包括:在所述输入时间段内,监测所述目标前台应用的界面是否发生变化;在所述前台应用的界面发生变化时,截取所述前台应用在变化前后的界面图像;将所述变化前后的界面图像确定为所述界面图像。

12、根据上述技术手段,首先,在输入时间段内,监测目标前台应用的界面是否发生变化,这样,可以确定需要截取的目标前台应用的界面图像的数量;然后,在前台应用的界面发生变化时,截取前台应用在变化前和变化后的界面图像,这样,可以确定变化前后所有的目标前台应用的界面图像;最后,将变化前后的界面图像确定为界面图像。通过本技术方案,在前台应用的界面未发生变化的情况下,只截取一张目标前台应用的界面图像,在前台应用的界面发生变化的情况下,截取多张目标前台应用的界面图像,将上述目标前台应用的界面图像作为后续生成第二文本的依据。

13、在一些实施例中,所述获取至少一个所述前台应用的业务服务类型,包括:获取第一前台应用的第一业务服务类型,及第二前台应用的第二业务服务类型;在所述第一业务服务类型和所述第二业务服务类型相同的情况下,获取所述第一前台应用的第一业务服务注册时间,及所述第二前台应用的第二业务服务注册时间;将所述第一业务服务注册时间和所述第二业务服务注册时间在后的前台应用对应的业务服务类型确定为所述前台应用的业务服务类型。

14、根据上述技术手段,首先,获取第一前台应用的第一业务服务类型,及第二前台应用的第二业务服务类型,这样,可以将第一业务服务类型和第二业务服务类型作为后续判断业务服务类型是否相同的基础;然后,在第一业务服务类型和第二业务服务类型相同的情况下,获取第一前台应用的第一业务服务注册时间,及第二前台应用的第二业务服务注册时间,这样,可以得到两个业务服务类型相同的前台应用分别对应的业务服务注册时间,方便后续对两个业务服务注册时间的先后顺序进行判断;最后,将第一业务服务注册时间和第二业务服务注册时间在后的前台应用对应的业务服务类型确定为前台应用的业务服务类型。通过本技术方案,在第一前台应用和第二前台应用的业务服务类型相同的情况下,将业务服务注册时间在后的应用的业务服务类型确定为前台应用的业务服务类型,方便后续确定目标前台应用,并将目标前台应用的已展示界面上的文本确定为第二文本。

15、在一些实施例中,所述在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的本文档来自技高网...

【技术保护点】

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:

3.根据权利要求1所述的语音识别方法,其特征在于,所述前台应用包括至少一个,所述在用户输入所述语音文件时获取前台应用的界面图像上的第二文本,包括:

4.根据权利要求3所述的语音识别方法,其特征在于,所述将所述目标前台应用的已展示界面上的文本确定为所述第二文本,包括:

5.根据权利要求4所述的语音识别方法,其特征在于,所述基于所述输入时间段,确定目标前台应用的界面图像,包括:

6.根据权利要求3所述的语音识别方法,其特征在于,所述获取至少一个所述前台应用的业务服务类型,包括:

7.根据权利要求1至6任一项所述的语音识别方法,其特征在于,所述在所述第一拼音字符串和所述第二拼音字符串存在相同字符串的情况下,将所述第一文本中与所述相同字符串对应的文本替换为所述第二文本中与所述相同字符串对应的文本,得到校正后的第一文本,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种语音识别设备,其特征在于,包括处理器和存储器:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器运行时,实现如权利要求1至7任一项所述的语音识别方法。

...

【技术特征摘要】

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:

3.根据权利要求1所述的语音识别方法,其特征在于,所述前台应用包括至少一个,所述在用户输入所述语音文件时获取前台应用的界面图像上的第二文本,包括:

4.根据权利要求3所述的语音识别方法,其特征在于,所述将所述目标前台应用的已展示界面上的文本确定为所述第二文本,包括:

5.根据权利要求4所述的语音识别方法,其特征在于,所述基于所述输入时间段,确定目标前台应用的界面图像,包括:

6.根据权利要求3所述的语音识别方法,其特征在于,所...

【专利技术属性】
技术研发人员:宋阳
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1