语音识别方法、装置、设备、存储介质及车辆制造方法及图纸

技术编号：41738218 阅读：14 留言：0更新日期：2024-06-19 12:57

本申请公开了一种语音识别方法、装置、设备、存储介质及车辆。其中，该方法包括：获取目标用户的图像特征和音频特征；对所述图像特征进行唇动检测，得到唇动信息；根据所述唇动信息确定所述目标用户发出语音指令的时间段；将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征；对所述多模态融合特征进行识别，得到所述语音指令的识别结果。根据本申请实施例的语音识别方法，能够保证语音识别系统和目标用户之间的正常交互，提高语音识别的准确率，进而能够提升目标用户的语音交互体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于语音识别，尤其涉及一种语音识别方法、装置、设备、存储介质及车辆。

技术介绍

1、随着人工智能的发展，语音助手的应用越来越广泛。例如，车载语音交互功能目前已成为智能车辆的标配。语音识别模块作为语音交互系统中的前端模块，其语音识别的准确率对整个语音交互系统的性能有着重要影响。

2、目前，车载语音识别技术无法区分目标用户和非目标用户。因此，在目标用户与语音系统交互的过程中，若非目标用户发出语音，则容易导致语音识别系统误识别非目标用户的声音，进而干扰与目标用户之间的正常交互。另外，在车内噪声较大的情况下，现有技术中的语音识别系统容易受到噪声干扰而导致语音识别的准确率较低，从而影响目标用户的语音交互体验。

技术实现思路

1、本申请实施例提供了一种语音识别方法、装置、设备、存储介质及车辆，能够保证语音识别系统和目标用户之间的正常交互，提高语音识别的准确率，进而能够提升目标用户的语音交互体验。

2、第一方面，本申请实施例提供了一种语音识别方法，该方法包括：

...

【技术保护点】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标用户的图像特征和音频特征之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述多模态融合特征进行识别，得到所述语音指令的识别结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述多模态融合特征进行音节识别，得到多个音节序列之后，所述方法还包括：

6.根据权利要求1所述的方法，其...

【技术特征摘要】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标用户的图像特征和音频特征之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述时间段内的所述图像特征和所述音频特征进行融合，得到多模态融合特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述多模态融合特征进行识别，得到所述语音指令的识别结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述多模态融合特征进行音节识别，得到多个音节序列之后...

【专利技术属性】
技术研发人员：王智超，
申请(专利权)人：北京罗克维尔斯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人