语音识别方法、装置、设备、介质及车辆制造方法及图纸

技术编号：41707852 阅读：12 留言：0更新日期：2024-06-19 12:38

本申请实施例公开了一种语音识别方法、装置、设备、介质及车辆。其中，方法包括：响应于用户设备输入的第一查询语音，获取目标语音以及目标视频流，目标语音包括第一查询语音以及第二查询语音，第二查询语音为与第一查询语音对应的上一轮查询语音数据，目标视频流包括与第一查询语音对应的视频流数据；对目标语音以及目标视频流进行情绪识别，得到目标情绪识别结果；基于目标情绪识别结果对应的语音识别策略，对目标语音进行识别，得到第一查询语音的语音识别结果。本申请实施例能够提升车载场景下语音识别的准确度和识别效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于人工智能，尤其涉及一种语音识别方法、装置、设备、计算机存储介质及车辆。

技术介绍

1、语音识别即对输入的语音信号进行识别，得到语音对应的文本内容。语音识别常嵌入在带有语音输入法的智能设备中，以提升用户的输入效率。

2、在车载环境中，常采用语音识别获取对用户输入的语音信号进行识别，以执行相应的操作，从而实现人机交互。

3、相关技术中，一般是从噪声情况、兴趣点(point of interest，poi)、用户位置信息等方面，对语音识别技术进行改进，以增强语音识别的准确性。然而，由于车载场景下的语音识别较为复杂，用户查询语音的上下文信息很少，现有的语音识别方法应用于车载环境中时，仍然存在准确度不高、识别效率低的问题，由此导致用户体验不佳。

技术实现思路

1、本申请实施例提供一种语音识别方法、装置、设备、计算机存储介质及车辆，能够至少提升语音识别的准确度和识别效率。

2、第一方面，本申请实施例提供一种语音识别方法，包括：

3、响应于用户设备输入的第一查询语音，获取目标语音以及目标视频流，目标语音包括第一查询语音以及第二查询语音，第二查询语音为与第一查询语音对应的上一轮查询语音数据，目标视频流包括与第一查询语音对应的视频流数据；

4、对目标语音以及目标视频流进行情绪识别，得到目标情绪识别结果；

5、基于目标情绪识别结果对应的语音识别策略，对目标语音进行识别，得到第一查询语音的语音识别结果。

6、在

7、对目标语音以及目标视频流进行特征提取，得到融合特征；

8、对目标语音进行情绪识别，得到第一情绪识别结果；

9、对目标视频流进行情绪识别，得到第二情绪识别结果；

10、对融合特征进行情绪识别，得到第三情绪识别结果；

11、将第一情绪识别结果、第二情绪识别结果和第三情绪识别结果按照预设的决策权重进行概率融合，得到目标情绪识别结果。

12、在一种可选的实施方式中，对目标语音和以及目标视频流进行特征提取，得到融合特征，包括：

13、提取第一查询语音和第二查询语音的语音特征；

14、提取目标视频流的视觉特征；

15、将语音特征和视觉特征融合，得到融合特征。

16、在一种可选的实施方式中，对目标语音进行情绪识别，得到第一情绪识别结果，包括：

17、提取第一查询语音和第二查询语音的语音特征；

18、对语音特征进行情绪识别，得到第一情绪识别结果。

19、在一种可选的实施方式中，对目标视频流进行情绪识别，得到第二情绪识别结果，包括：

20、提取目标视频流的视觉特征；

21、对视觉特征进行情绪识别，得到第二情绪识别结果。

22、在一种可选的实施方式中，获取目标语音，包括：

23、获取第一查询语音以及第二查询语音；

24、将第一查询语音以及第二查询语音合并，得到目标语音。

25、在一种可选的实施方式中，基于目标情绪识别结果对应的语音识别策略，对目标语音进行识别，得到第一查询语音的语音识别结果，包括：

26、根据目标情绪识别结果，从预设的解码参数中确定与目标情绪识别结果对应的目标解码参数和目标解码策略；

27、基于目标解码参数和目标解码策略对应的语音识别策略，对目标语音进行语音识别解码，得到第一查询语音的语音识别结果。

28、第二方面，本申请实施例提供一种语音识别装置，包括：

29、获取模块，用于响应于用户设备输入的第一查询语音，获取目标语音以及目标视频流，目标语音包括第一查询语音以及第二查询语音，第二查询语音为与第一查询语音对应的上一轮查询语音数据，目标视频流包括与第一查询语音对应的视频流数据；

30、识别模块，用于对目标语音以及目标视频流进行情绪识别，得到目标情绪识别结果；

31、识别模块，还用于基于目标情绪识别结果对应的语音识别策略，对目标语音进行识别，得到第一查询语音的语音识别结果。

32、第三方面，本申请实施例提供一种电子设备，设备包括：处理器以及存储有计算机程序指令的存储器；

33、处理器执行计算机程序指令时实现如本申请第一方面任一可选实施方式的语音识别方法。

34、第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如本申请第一方面任一可选实施方式的语音识别方法。

35、第五方面，本申请实施例提供一种车辆，该车辆包括：如第二方面的语音识别装置或如第三方面的电子设备。

36、本申请实施例的语音识别方法、装置、设备、计算机存储介质及车辆，能够响应于用户设备输入的查询语音，获取包括当前查询语音及其对应的上一轮查询语音的目标语音，以及与当前查询语音对应的目标视频流。然后，对目标语音以及目标视频流进行情绪识别，得到目标情绪识别结果。如此，能够结合语音信息和视觉信息，多方面、准确地识别用户语音所对应的情绪。接着，再基于目标情绪识别结果对应的语音识别策略，对目标语音进行识别，得到当前语音的语音识别结果。这样，能够基于用户语音的情绪识别结果，通过相应的语音识别策略进行语音识别。如此，一方面能够结合用户语音的情绪，对语音所携带的语义信息进行识别，从而提升语音识别的准确度；另一方面，能够基于用户语音的情绪，灵活地调整语音识别的策略。由此，能够提升车载环境中语音识别的准确度和识别效率，从而提升用户体验。

本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标语音以及目标视频流进行情绪识别，得到目标情绪识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标语音和以及目标视频流进行特征提取，得到融合特征，包括：

4.根据权利要求2所述的方法，其特征在于，对所述目标语音进行情绪识别，得到第一情绪识别结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述目标视频流进行情绪识别，得到第二情绪识别结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述目标语音，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述基于所述目标情绪识别结果对应的语音识别策略，对所述目标语音进行识别，得到所述第一查询语音的语音识别结果，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

10.一种计算机可读存储介质，其特征在

11.一种车辆，其特征在于，所述车辆包括：如权利要求8所述的语音识别装置或权利要求9所述的电子设备。

...

【技术特征摘要】