The invention discloses a multimedia voice recognition device and method, which comprises: at least a second voice acquisition module, an imaging device and a control module, wherein the control module identifies the set of regional intelligent user equipment within the user exists, the intelligent control of the user equipment can set the camera device of rotating parts one for the user; second voice acquisition module for voice data; imaging device for obtaining video information; the control module for the voice data in the jump is determined, the extraction of the video camera device information obtained in the picture; and combining the data of the voice second voice acquisition module and the voice sending pictures, identify the voice data corresponding to the user, identifying the voice instructions for Improve the rate of speech recognition, reduce the processing overhead of speech recognition, and improve the real time.
【技术实现步骤摘要】
一种多媒体语音识别装置及方法
本专利技术涉及通信
,尤其是涉及一种多媒体语音识别装置及方法。
技术介绍
相比个人计算机,以机器人为代表的智能设备日益受到欢迎。除了携带方便外,机器人的多种多样的人机交互能力也是广受关注的一个因素,这其中包括语音交互、图像交互、触觉感知等。机器人等其他智能设备和人体交互时,不能像手机一样与人体距离太近,因为手机是随身设备,而机器人则看做是另外的一个类人实体。在机器人改造角度,当前技术方案侧重于在机器人本体上加设通过蓝牙连接的麦克风或者放大器等降噪声音采集模块,其可以采用比较成熟的降噪技术,从而提升语音的纯净程度。但要想获得清晰的语音,需要交互时人处于某固定位置,才能达到较好的降噪性能,这样就限制了人机交互场景,易于给使用者带来不便;同时降噪声音采集模块的声音采集阈值难以较好设定,如果阈值过低,则容易将其他人的声音或者噪声视为指令;如果阈值过高,则灵敏度较低,出现人机交互困难。为了进一步优化语音效果,有方案提出使用图像采集模块先确认人员行为,进而根据图像上人的行为判断控制声音采集模块开关,明确采集到的声音是有效的。也有方案提到对唇读视频和语音进行共同识别,以提升语音识别率。但以上方案仍存在对人员活动范围的限制,如使用图像采集模块识别人员行为,需要人员必须站立在图像采集模块前面。同时,使用唇读视频和语音共同识别方案,在一定程度上可以提升识别率,但视频数据量大,处理开销高,往往实时性不高。
技术实现思路
本专利技术提供了一种多媒体语音识别装置及方法,用于提升语音识别率,降低语音识别的处理开销,提高实时性。一种多媒体语音识别装置,包 ...
【技术保护点】
一种多媒体语音识别装置,其特征在于,包括至少一个第二声音采集模块、摄像装置以及控制模块,其中:控制模块在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;第二声音采集模块,用于获得声音数据;摄像装置,用于获取视频信息;所述控制模块,用于在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音。
【技术特征摘要】
1.一种多媒体语音识别装置,其特征在于,包括至少一个第二声音采集模块、摄像装置以及控制模块,其中:控制模块在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;第二声音采集模块,用于获得声音数据;摄像装置,用于获取视频信息;所述控制模块,用于在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音。2.如权利要求1所述的装置,其特征在于,所述装置还包括至少一个红外阵列感应模块,所述红外阵列感应模块分布环绕所述装置本体,用于采集红外数据,并将所述红外数据发送给所述控制模块;所述控制模块,具体用于接收所述红外数据,在分析出所述红外数据中包含人体信息时,确定智能用户设备的设定区域内有用户存在。3.如权利要求1或2所述的装置,其特征在于,所述装置还包括至少一个第一声音采集模块,所述第一声音采集模块分布环绕所述装置本体,其中:所述第一声音采集模块,用于采集所述智能用户设备设定区域内的声音数据,并将所述声音数据发送给控制模块;所述控制模块,具体用于接收所述声音数据,在分析出所述声音数据中包含用户所做的动作发出的声音时,确定智能用户设备的设定区域内有用户存在。4.如权利要求3所述的装置,其特征在于,所述控制模块,还用于在开启第二声音采集模块获得声音数据时,关闭所述第一声音采集模块。5.如权...
【专利技术属性】
技术研发人员:马帅,于渊,
申请(专利权)人:中国移动通信有限公司研究院,中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。