语音识别方法以及电子设备技术

技术编号：42315477 阅读：13 留言：0更新日期：2024-08-14 15:58

本申请公开了一种语音识别方法以及电子设备，属于计算机技术领域。通过本申请实施例提供的技术方案，响应于对目标语音的语音识别指令，对该目标语音进行语音识别，得到该目标语音的初始识别文本，从而实现对该目标语音的初步识别。基于该初始识别文本在目标对象的历史文本集合中进行查询，得到该初始识别文本对应的参考文本，该历史文本集合包括该目标对象输入过的文本，该目标对象为发出该目标语音的对象。基于该参考文本和该初始识别文本，生成该目标语音的目标识别文本，也即是利用该目标对象输入过的文本来对初始识别文本进行修正，得到准确性更高的目标识别文本，从而提高语音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，并且更具体地，涉及计算机技术中一种语音识别方法以及电子设备。

技术介绍

1、随着现代生活的加快节奏和科技的进步，语音转文字技术的应用越来越广泛。比如，越来越多的车辆提供语音助手的功能，用户可以在驾驶车辆的过程中通过语音助手来控制车辆，语音助手就利用了语音转文字的技术。

2、相关技术中，通常是利用声学模型来实现语音转文字，但是，利用声学模型来进行语音转文字会经常出现错误。

3、因此，如何提高语音转文字的准确性是研究的热点。

技术实现思路

1、本申请实施例提供了一种语音识别方法以及电子设备，能够提高语音转文字的准确性，技术方案如下：

2、一方面，提供了一种语音识别方法，所述方法包括：

3、响应于对目标语音的语音识别指令，对所述目标语音进行语音识别，得到所述目标语音的初始识别文本；

4、基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识别文本对应的参考文本，所述历史文本集合包括所述目标对象输入过的文本，所述目标对象为发出所述目标语音的对象；

5、基于所述参考文本和所述初始识别文本，生成所述目标语音的目标识别文本。

6、在一种可能的实施方式中，所述响应于对目标语音的语音识别指令，对所述目标语音进行语音识别，得到所述目标语音的初始识别文本，包括：

7、响应于对目标语音的语音识别指令，将所述目标语音输入语音识别模型，通过所述语音识别模型对所述目标语音进行编码，得到所述目标语音的语音特征；

8、通过所述语音识别模型，对所述目标语音的语音特征进行多轮迭代解码，得到所述目标语音的初始识别文本。

9、在一种可能的实施方式中，所述目标对象输入过的文本包括所述目标对象输入过的词汇和/或短语，所述基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识别文本对应的参考文本，包括：

10、对所述初始识别文本进行文本分割，得到所述初始识别文本中的多个子文本；

11、基于所述多个子文本在所述历史文本集合中进行查询，得到所述多个子文本对应的参考词汇和/或参考短语；

12、将所述多个子文本对应的参考词汇和/或参考短语的集合确定为所述初始识别文本对应的参考文本。

13、在一种可能的实施方式中，所述基于所述多个子文本在所述历史文本集合中进行查询，得到所述多个子文本对应的参考词汇和/或参考短语，包括：

14、对所述多个子文本进行关键子文本识别，得到所述多个子文本中的多个关键子文本；

15、采用所述多个关键子文本在所述历史文本集合中进行读音匹配，得到所述多个子文本对应的参考词汇和/或参考短语。

16、在一种可能的实施方式中，所述基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识别文本对应的参考文本之前，所述方法还包括：

17、对所述目标语音进行声纹识别，得到所述目标语音的声纹特征；

18、基于所述声纹特征，确定发出所述目标语音的目标对象；

19、确定所述目标对象对应的所述历史文本集合。

20、在一种可能的实施方式中，所述基于所述参考文本和所述初始识别文本，生成所述目标语音的目标识别文本，包括：

21、基于所述参考文本和所述初始识别文本，生成目标提示文本，所述目标提示文本用于指示基于所述参考文本对所述初始识别文本进行修正；

22、将所述目标提示文本输入目标语言模型，通过所述目标语言模型对所述目标提示文本进行处理，得到所述目标识别文本。

23、在一种可能的实施方式中，所述参考文本为参考词汇和/或参考短语的集合，所述通过所述目标语言模型对所述目标提示文本进行处理，得到所述目标识别文本，包括：

24、通过所述目标语言模型，确定所述参考文本中参考词汇和/或参考短语与所述初始识别文本的语义匹配程度；

25、采用所述参考文本中的目标词汇和/或目标短语替换所述初始识别文本中对应的子文本，得到所述目标识别文本，所述目标词汇为与所述初始识别文本的语义匹配程度大于或等于预设语义匹配程度的参考词汇，所述目标短语为与所述初始识别文本的语义匹配程度大于或等于预设语义匹配程度的参考短语。

26、在一种可能的实施方式中，所述通过所述目标语言模型，确定所述参考文本中参考词汇和/或参考短语与所述初始识别文本的语义匹配程度，包括：

27、通过所述目标语言模型，对所述初始识别文本进行语义特征提取，以及利用所述初始识别文本对所述参考文本中参考词汇和/或参考短语进行语义特征提取，得到所述初始识别文本的识别文本语义特征、所述参考文本中参考词汇的词汇语义特征和/或参考短语的短语语义特征；

28、基于所述参考文本中参考词汇的词汇语义特征和/或参考短语的短语语义特征与所述识别文本语义特征之间的特征相似度，确定所述参考文本中参考词汇和/或参考短语与所述初始识别文本的语义匹配程度。

29、在一种可能的实施方式中，所述通过所述目标语言模型对所述目标提示文本进行处理，得到所述目标识别文本，包括：

30、通过所述目标语言模型，基于注意力机制对所述目标提示文本进行编码，得到所述目标提示文本的提示文本语义特征；

31、通过所述目标语言模型，基于注意力机制对所述提示文本语义特征进行多轮迭代解码，得到所述目标识别文本。

32、一方面，提供了一种语音识别装置，所述装置包括：

33、语音识别模块，用于响应于对目标语音的语音识别指令，对所述目标语音进行语音识别，得到所述目标语音的初始识别文本；

34、查询模块，用于基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识别文本对应的参考文本，所述历史文本集合包括所述目标对象输入过的文本，所述目标对象为发出所述目标语音的对象；

35、生成模块，用于基于所述参考文本和所述初始识别文本，生成所述目标语音的目标识别文本。

36、在一种可能的实施方式中，所述语音识别模块，用于响应于对目标语音的语音识别指令，将所述目标语音输入语音识别模型，通过所述语音识别模型对所述目标语音进行编码，得到所述目标语音的语音特征；通过所述语音识别模型，对所述目标语音的语音特征进行多轮迭代解码，得到所述目标语音的初始识别文本。

37、在一种可能的实施方式中，所述目标对象输入过的文本包括所述目标对象输入过的词汇和/或短语，所述查询模块，用于对所述初始识别文本进行文本分割，得到所述初始识别文本中的多个子文本；基于所述多个子文本在所述历史文本集合中进行查询，得到所述多个子文本对应的参考词汇和/或参考短语；将所述多个子文本对应的参考词汇和/或参考短语的集合确定为所述初始识别文本对应的参考文本。

38、在一种可能的实施方式中，所述查询模块，用于对所述多个子文本进行关键子文本识别本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述响应于对目标语音的语音识别指令，对所述目标语音进行语音识别，得到所述目标语音的初始识别文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标对象输入过的文本包括所述目标对象输入过的词汇和/或短语，所述基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识别文本对应的参考文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个子文本在所述历史文本集合中进行查询，得到所述多个子文本对应的参考词汇和/或参考短语，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识别文本对应的参考文本之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述参考文本和所述初始识别文本，生成所述目标语音的目标识别文本，包括：

7.根据权利要求6所述的方法，其特征在于，所述参考文本为参考词汇和/或参考短语的集合

8.根据权利要求7所述的方法，其特征在于，所述通过所述目标语言模型，确定所述参考文本中参考词汇和/或参考短语与所述初始识别文本的语义匹配程度，包括：

9.根据权利要求6所述的方法，其特征在于，所述通过所述目标语言模型对所述目标提示文本进行处理，得到所述目标识别文本，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种语音识别方法，其特征在于，所述方法包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述初始识别文本在目标对象的历史文本集合中进行查询，得到所述初始识...

【专利技术属性】
技术研发人员：闫启东，刘胜南，宫宇，
申请(专利权)人：长城汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人