【技术实现步骤摘要】
基于音视觉融合的车内语音交互方法、装置及车辆
[0001]本公开涉及语音交互
,尤其涉及一种基于音视觉融合的车内语音交互方法
、
装置及车辆
。
技术介绍
[0002]相关技术中,当用户与车载语音交互设备进行语音交互时,车载语音交互设备通常采用基于听觉的语音交互方法以实现人机交互
。
该方法依赖于前端声源定位
、
人声隔离
、
唤醒
、
音区锁定
。
由于基于听觉信号的人声隔离并不能将不同位置人同时讲话的语音准确的隔离开来,同时受制于车载电脑的算力,为提高语音识别准确率,往往仅对唤醒指令的音区进行响应,而唤醒计算必须多路同时计算,并依赖唤醒的结果以进行音区锁定,计算复杂,对车载电脑的算力要求高,且音区锁定后,其他音区人员的语音请求不能被有效响应
。
技术实现思路
[0003]本公开提供一种基于音视觉融合的车内语音交互方法
、
装置及车辆,以至少解决相关技术中语音交互只依赖于听觉 ...
【技术保护点】
【技术特征摘要】
1.
一种基于音视觉融合的车内语音交互方法,其特征在于,包括:获取车内摄像设备采集的车内视频,并获取所述车内视频中的唇部视觉信息;基于所述唇部视觉信息进行唇动检测,响应于检测到所述车内视频中至少一个说话人存在唇动,获取所述至少一个说话人各自的唇部动作序列图片;基于所述车内视频控制车内多个麦克风获取所述至少一个说话人各自的待识别语音;基于所述至少一个说话人各自的唇部动作序列图片和所述至少一个说话人各自的待识别语音进行语音识别,获取所述至少一个说话人各自的语音识别结果;控制车载语音交互设备基于所述语音识别结果与所述至少一个说话人进行语音交互
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述车内视频控制车内多个麦克风获取所述至少一个说话人各自的待识别语音,包括:根据所述车内视频中所述至少一个说话人各自的唇部视觉信息,确定所述至少一个说话人各自在所述车内的位置区域;或者,从所述车内视频中获取所述至少一个说话人各自乘坐位置的图像,根据所述至少一个说话人各自乘坐位置的图像,确定所述至少一个说话人各自在所述车内的位置区域;根据所述位置区域,调整与所述至少一个说话人各自对应的车内麦克风的操作,所述操作包括开启
、
关闭
、
增益和人工智能
AI
降噪中的至少一种;基于调整后的所述车内麦克风采集的音频,获取所述至少一个说话人各自的待识别语音
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述车内视频中所述至少一个说话人各自的唇部视觉信息,确定所述至少一个说话人各自在所述车内的位置区域,包括:确定所述车内位置区域与所述摄像设备的视角范围映射关系;根据所述至少一个说话人各自的唇部视觉信息和所述视角范围映射关系,确定所述至少一个说话人各自在所述车内的位置区域
。4.
根据权利要求2所述的方法,其特征在于,所述基于调整后的所述车内麦克风采集的音频,获取所述至少一个说话人各自的待识别语音,包括:对调整后的所述车内麦克风采集的音频进行特征提取,获得与所述位置区域对应的听觉特征信息;提取所述至少一个说话人各自的唇部动作序列图片的特征,获得各个所述说话人的视觉特征信息;确定与所述位置区域对应的听觉特征信息和所述说话人的视觉特征信息之间的相关性,并根据所述相关性获取与所述视觉特征信息对应的语音;将与所述视觉特征信息对应的语音确定为所述说话人的待识别语音
。5.
根据权利要求1所述的方法,其特征在于,所述基于所述至少一个说话人各自的唇部动作序列图片和所述至少一个说话人各自的待识别语音进行语音识别,获取所述至少一个说话人各自的语音识别结果,包括:对所述至少一个说话人各自的唇部动作序列图片进行...
【专利技术属性】
技术研发人员:周盼,
申请(专利权)人:北京罗克维尔斯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。