语音识别方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号:35180353 阅读:9 留言:0更新日期:2022-10-12 17:48
本发明专利技术提供一种语音识别方法、装置、电子设备、存储介质及产品,所述方法包括:响应车内用户的语音信息,获取所述用户的面部图像;根据所述面部图像上的面部特征确定所述用户的当前状态;在所述用户的当前状态满足设定条件时,对所述语音信息进行识别,得到识别结果;在所述识别结果为车机指令时,按照所述车机指令执行对应的操作。也就是说,本发明专利技术实施例中,根据面部图像上的面部特征来确定所述用户的当前状态,基于的用户的当前对语音信息进行识别,进而可以准确的判断出哪那些语音信息是车机指令,哪些语音信息不是车机指令,提高了车机准确执行车机指令的效率,降低车机误操作率,也提升了用户体验。也提升了用户体验。也提升了用户体验。

【技术实现步骤摘要】
语音识别方法、装置、电子设备、存储介质及产品


[0001]本专利技术涉及语音理解
,尤其涉及一种语音识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着智能汽车的快速发展,语音功能是智能汽车的一个重要功能。用户每次和车机交流的时候都需要使用唤醒词,比如,“用户说:你好哪吒”,从而唤醒车机的语音功能,由于每次都要使用唤醒词,所以会比较麻烦。
[0003]基于此,相关技术中提出了“免唤醒”方案,但是,在“免唤醒”方案中,对于用户在车中说话时,车机并不能准确的判断出哪些话是对“车机的指令”,哪些话“不是对车机的指令”。从而就会造成“误召回”,导致车机错误的执行指令,从而影响用户体验。
[0004]因此,在检测到车内用户的语音时,如何准确的识别出哪些语音是车机的指令,降低车机的误操作率是目前有待解决的技术问题。

技术实现思路

[0005]本专利技术提供一种语音识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,以至少解决相关技术中由于对车内语音不能准确的识别出车机指令,导致车机执行错误的指令,增加误操作率的的技术问题。本专利技术的技术方案如下:
[0006]根据本专利技术实施例的第一方面,提供一种语音识别方法,包括:
[0007]响应车内用户的语音信息,获取所述用户的面部图像;
[0008]根据所述面部图像上的面部特征确定所述用户的当前状态;
[0009]在所述用户的当前状态满足设定条件时,对所述语音信息进行识别,得到识别结果;
[0010]在所述识别结果为车机指令时,按照所述车机指令执行对应的操作。
[0011]可选的,所述方法还包括:
[0012]在所述用户的当前状态不满足设定条件时,拒绝对所述语音信息进行识别。
[0013]可选的,所述根据所述面部图像上的面部特征确定所述用户的当前状态,至少包括下述一种:
[0014]获取车辆的信息状态,基于所述信息状态和所述面部图像的面部特征判定车载蓝牙电话没有开启时,确定所述用户处于非打电话状态;
[0015]在根据所述面部图像的面部特征判定所述用户的正脸看向车辆行驶方向时,确定所述用户处于正脸看向前的状态;
[0016]在根据所述面部图像的面部特征判定所述用户的嘴巴处于张合状态时,确定所述用户处于说话状态。
[0017]可选的,所述在所述用户的当前状态满足设定条件时,对所述语音信息进行识别,得到识别结果,包括:
[0018]在所述用户的当前状态为:所述用户处于非打电话状态、用户处于正脸向前看的状态和用户处于说话状态的至少一种时,确定所述用户满足设定条件;
[0019]对所述语音信息进行识别,得到识别结果。
[0020]可选的,所述对所述语音信息进行识别,得到识别结果,包括:
[0021]将所述语音信息进行本地语音文字转换处理,得到转换后的文本信息;或者
[0022]将所述语音信息发送给云端,由所述云端进行语音文字转换处理后得到文本信息;
[0023]接收所述云端发送的转换后的文本信息。
[0024]可选的,所述在所述识别结果为车机指令时,按照所述车机指令执行对应的操作,包括:
[0025]将所述识别结果通过训练好的车机指令识别模型进行判断,得到所述识别结果是车机指令;其中,所述训练好的车机指令识别模型是基于人与车机交互的多个历史音频对,文本对,以及场景和关键词进行学习训练得到的模型;
[0026]按照得到的所述车机指令执行对应的操作。
[0027]根据本专利技术实施例的第二方面,提供一种语音识别装置,包括:
[0028]获取模块,用于响应车内用户的语音信息,获取所述用户的面部图像;
[0029]确定模块,用于根据所述面部图像上的面部特征确定所述用户的当前状态;
[0030]识别模块,用于在所述用户的当前状态满足设定条件时,对所述语音信息进行识别,得到识别结果;
[0031]执行模块,在所述识别结果为车机指令时,按照所述车机指令执行对应的操作。
[0032]可选的,所述装置还包括:
[0033]拒识别模块,用于在所述用户的当前状态不满足设定条件时,拒绝对所述语音信息进行识别。
[0034]可选的,所述确定模块至少包括下述一个模块:
[0035]第一确定模块,用于基于获取车辆的信息状态和所述面部图像的面部特征判定车载蓝牙电话没有开启时,确定所述用户处于非打电话状态;
[0036]第二确定模块,用于在根据所述面部图像的面部特征判定所述用户的正脸看向车辆行驶方向时,确定所述用户处于正脸看向前的状态;
[0037]第三确定模块,用于在根据所述面部图像的面部特征判定所述用户的嘴巴处于张合状态时,确定所述用户处于说话状态。
[0038]可选的,所述识别模块包括:
[0039]第一判断模块,用于在所述用户的当前状态为:所述用户处于非打电话状态、用户处于正脸向前看的状态和用户处于说话状态的至少一种时,判定满足设定条件;
[0040]语音识别模块,用于对所述语音信息进行识别,得到识别结果。
[0041]可选的,所述语音识别模块包括:语音转换模块;和/或发送模块和接收模块,其中,
[0042]所述语音转换模块,用于将所述语音信息进行本地语音文字转换处理,得到转换后的文本信息;
[0043]所述发送模块,用于将所述语音信息发送给云端,由所述云端进行语音文字转换
处理后得到文本信息;
[0044]所述接收模块,用于接收所述云端发送的转换后的文本信息。
[0045]可选的,所述执行模块包括:
[0046]第二判断模块,用于将所述识别结果通过训练好的车机指令识别模型进行判断,得到所述识别结果是车机指令;其中,所述训练好的车机指令识别模型是基于人与车机交互的多个历史音频对,文本对,以及场景和关键词进行学习训练得到的模型;
[0047]指令执行模块,用于按照第二判断模块得到的所述车机指令执行对应的操作。
[0048]根据本专利技术实施例的第三方面,提供一种电子设备,包括:
[0049]处理器;
[0050]用于存储所述处理器可执行指令的存储器;
[0051]其中,所述处理器被配置为执行所述指令,以实现如上所述的语音识别方法。
[0052]根据本专利技术实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的语音识别方法。
[0053]根据本专利技术实施例的第五方面,提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如上所述的语音识别方法。
[0054]本专利技术的实施例提供的技术方案至少带来以下有益效果:
[0055]本专利技术实施例中,响应车内用户的语音信息,获取所述用户的面部图像;根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:响应车内用户的语音信息,获取所述用户的面部图像;根据所述面部图像上的面部特征确定所述用户的当前状态;在所述用户的当前状态满足设定条件时,对所述语音信息进行识别,得到识别结果;在所述识别结果为车机指令时,按照所述车机指令执行对应的操作。2.根据权利要求1所述的语音识别方法,其特征在于,所述方法还包括:在所述用户的当前状态不满足设定条件时,拒绝对所述语音信息进行识别。3.根据权利要求1或2所述的语音识别方法,其特征在于,所述根据所述面部图像上的面部特征确定所述用户的当前状态,至少包括下述一种:获取车辆的信息状态,基于所述信息状态和所述面部图像的面部特征判定车载蓝牙电话没有开启时,确定所述用户处于非打电话状态;在根据所述面部图像的面部特征判定所述用户的正脸看向车辆行驶方向时,确定所述用户处于正脸看向前的状态;在根据所述面部图像的面部特征判定所述用户的嘴巴处于张合状态时,确定所述用户处于说话状态。4.根据权利要求3所述的语音识别方法,其特征在于,所述在所述用户的当前状态满足设定条件时,对所述语音信息进行识别,得到识别结果,包括:在所述用户的当前状态为:所述用户处于非打电话状态、用户处于正脸向前看的状态和用户处于说话状态的至少一种时,确定所述用户满足设定条件;对所述语音信息进行识别,得到识别结果。5.根据权利要求4所述的语音识别方法,其特征在于,所述对所述语音信息进行识别,得到识别结果,包括:将所述语音信息进行本地语音文字转换处理,得到转换后的文本...

【专利技术属性】
技术研发人员:蒋磊蔡勇
申请(专利权)人:合众新能源汽车有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1