一种多媒体语音识别装置及方法制造方法及图纸

技术编号:16758064 阅读:32 留言:0更新日期:2017-12-09 03:27
本发明专利技术公开了一种多媒体语音识别装置及方法,该装置包括:至少一个第二声音采集模块、摄像装置以及控制模块,其中:控制模块在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;第二声音采集模块,用于获得声音数据;摄像装置,用于获取视频信息;所述控制模块,用于在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音,识别所述语音指令,用于提升语音识别率,降低语音识别的处理开销,提高实时性。

A multimedia speech recognition device and method

The invention discloses a multimedia voice recognition device and method, which comprises: at least a second voice acquisition module, an imaging device and a control module, wherein the control module identifies the set of regional intelligent user equipment within the user exists, the intelligent control of the user equipment can set the camera device of rotating parts one for the user; second voice acquisition module for voice data; imaging device for obtaining video information; the control module for the voice data in the jump is determined, the extraction of the video camera device information obtained in the picture; and combining the data of the voice second voice acquisition module and the voice sending pictures, identify the voice data corresponding to the user, identifying the voice instructions for Improve the rate of speech recognition, reduce the processing overhead of speech recognition, and improve the real time.

【技术实现步骤摘要】
一种多媒体语音识别装置及方法
本专利技术涉及通信
,尤其是涉及一种多媒体语音识别装置及方法。
技术介绍
相比个人计算机,以机器人为代表的智能设备日益受到欢迎。除了携带方便外,机器人的多种多样的人机交互能力也是广受关注的一个因素,这其中包括语音交互、图像交互、触觉感知等。机器人等其他智能设备和人体交互时,不能像手机一样与人体距离太近,因为手机是随身设备,而机器人则看做是另外的一个类人实体。在机器人改造角度,当前技术方案侧重于在机器人本体上加设通过蓝牙连接的麦克风或者放大器等降噪声音采集模块,其可以采用比较成熟的降噪技术,从而提升语音的纯净程度。但要想获得清晰的语音,需要交互时人处于某固定位置,才能达到较好的降噪性能,这样就限制了人机交互场景,易于给使用者带来不便;同时降噪声音采集模块的声音采集阈值难以较好设定,如果阈值过低,则容易将其他人的声音或者噪声视为指令;如果阈值过高,则灵敏度较低,出现人机交互困难。为了进一步优化语音效果,有方案提出使用图像采集模块先确认人员行为,进而根据图像上人的行为判断控制声音采集模块开关,明确采集到的声音是有效的。也有方案提到对唇读视频和语音进行共同识别,以提升语音识别率。但以上方案仍存在对人员活动范围的限制,如使用图像采集模块识别人员行为,需要人员必须站立在图像采集模块前面。同时,使用唇读视频和语音共同识别方案,在一定程度上可以提升识别率,但视频数据量大,处理开销高,往往实时性不高。
技术实现思路
本专利技术提供了一种多媒体语音识别装置及方法,用于提升语音识别率,降低语音识别的处理开销,提高实时性。一种多媒体语音识别装置,包括至少一个第二声音采集模块、摄像装置以及控制模块,其中:控制模块在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;第二声音采集模块,用于获得声音数据;摄像装置,用于获取视频信息;所述控制模块,用于在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音。所述装置还包括至少一个红外阵列感应模块,所述红外阵列感应模块分布环绕所述装置本体,用于采集红外数据,并将所述红外数据发送给所述控制模块;所述控制模块,具体用于接收所述红外数据,在分析出所述红外数据中包含人体信息时,确定智能用户设备的设定区域内有用户存在。所述装置还包括至少一个第一声音采集模块,所述第一声音采集模块分布环绕所述装置本体,其中:所述第一声音采集模块,用于采集所述智能用户设备设定区域内的声音数据,并将所述声音数据发送给控制模块;所述控制模块,具体用于接收所述声音数据,在分析出所述声音数据中包含用户所做的动作发出的声音时,确定智能用户设备的设定区域内有用户存在。所述控制模块,还用于在开启第二声音采集模块获得声音数据时,关闭所述第一声音采集模块。所述控制模块,具体用于若所述识别结果中,包含的词语少于第一数值,且所述词语的含义多于第二数值时,为所述识别结果的每种释义标注概率,并展示概率值最高的识别结果。一种多媒体语音识别方法,包括:在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;获得获得声音数据;以及获取视频信息;在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音。确定出智能用户设备的设定区域内有用户存在,包括:获得红外数据;在所述红外数据中包含人体信息时,确定智能用户设备的设定区域内有用户存在。确定出智能用户设备的设定区域内有用户存在,包括:获得所述智能用户设备设定区域内的声音数据;在分析出所述声音数据中包含用户所做的动作发出的声音时,确定智能用户设备的设定区域内有用户存在。还包括:若所述识别结果中,包含的词语少于第一数值,且所述词语的含义多于第二数值时,为所述识别结果的每种释义标注概率,并展示概率值最高的识别结果。所述声音数据跃变,具体包括:所述声音数据中包含用户发送的语音时,确定声音数据跃变。通过采用上述技术方案,通过感知人体位置的方案,并根据人体位置控制可转动部件转动,将摄像装置和第二声音采集模块对准用户。可以从视觉、听觉两方面定位人体位置,提升了定位精度,提升语音识别率,降低语音识别的处理开销,提高实时性。附图说明图1~图4为本专利技术实施例提出的多媒体语音识别装置结构组成示意图;图5为本专利技术实施例中提出的多媒体语音识别方法流程图。具体实施方式下面将结合各个附图对本专利技术实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。本专利技术实施例提出一种多媒体语音识别装置,该装置可以是集成在智能用户本体中,也可以是独立的一个模块,在本专利技术实例提出的技术方案中,将一该识别装置集成在之智能用户设备本体中为例进行详细阐述,如图1所示,其结构组成如下述:该装置至少一个第二声音采集模块101、摄像装置102以及控制模块103。控制模块103可以与第二声音采集模块101、摄像装置102以及控制模块103进行通信。一种较佳地实施方式,如图2所示,该装置还可以包括至少一个红外阵列感应模块201,至少一个第一声音采集模块202。该装置可以通过控制模块103控制智能用户设备的可转动部件203。以图2所示装置为例进行详细阐述:红外阵列感应模块201,分布环绕在智能用户设备本体,采集红外数据,可以通过红外感应方式,监测用户是否靠近智能用户设备以及定位用户的位置。红外阵列感应模块201将采集到的红外数据传输给控制模块103。第一声音采集模块202,分布环绕在智能用户设备本体,采集智能用户设备设定区域内的声音数据。该声音数据是用户所做的动作时发出的声音,或者是智能用户设备设定区域内环境的声音。第一声音采集模块202中可以集成降噪功能,也可以不集成降噪功能。红外阵列感应模块201采集的红外数据,以及第一声音采集模块202采集的声音数据,发送给控制模块103。控制模块103,具体用于接收红外数据,在分析出红外数据中包含人体信息时,确定智能用户设备的设定区域内有用户存在。进一步地,具体用于接收所述声音数据,在分析出所述声音数据中包含用户所做的动作发出的声音时,确定智能用户设备的设定区域内有用户存在。一种较佳地实现方式,在本专利技术实施例提出的技术方案中,结合红外阵列感应模块和第一声音采集模块,确定智能用户设备的设定区域内是否有用户存在。控制模块103获得红外阵列感应模块201采集的红外数据,以及获得以第一声音采集模块202采集的声音数据,控制模块103根据红外数据和声音数据,确定智能用户设备的设定区域内是否有用户存在,以及用户的位置。控制模块103在确定出智能用户设备的设定区域内有用户存在时,控制智能用户设备的可转动部件203的正面面向该用户。其中,在本专利技术实例提出的技术方案中,可转动部件203的正面即设置有摄像装置的一面。控制模块103在控制智能用户设备的可转动部件203的正面面向该用户之后,该控制模块可以通过第二声音采集模块101获得声音数据。第二声音采集模块本文档来自技高网...
一种多媒体语音识别装置及方法

【技术保护点】
一种多媒体语音识别装置,其特征在于,包括至少一个第二声音采集模块、摄像装置以及控制模块,其中:控制模块在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;第二声音采集模块,用于获得声音数据;摄像装置,用于获取视频信息;所述控制模块,用于在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音。

【技术特征摘要】
1.一种多媒体语音识别装置,其特征在于,包括至少一个第二声音采集模块、摄像装置以及控制模块,其中:控制模块在确定出智能用户设备的设定区域内有用户存在时,控制所述智能用户设备的可转动部件设置摄像装置的一面面向所述用户;第二声音采集模块,用于获得声音数据;摄像装置,用于获取视频信息;所述控制模块,用于在确定出所述声音数据跃变时,提取当前摄像装置中获取的所述视频信息中的图片;并结合所述第二声音采集模块采集的所述声音数据和所述图片,识别所述声音数据对应的用户发送的语音。2.如权利要求1所述的装置,其特征在于,所述装置还包括至少一个红外阵列感应模块,所述红外阵列感应模块分布环绕所述装置本体,用于采集红外数据,并将所述红外数据发送给所述控制模块;所述控制模块,具体用于接收所述红外数据,在分析出所述红外数据中包含人体信息时,确定智能用户设备的设定区域内有用户存在。3.如权利要求1或2所述的装置,其特征在于,所述装置还包括至少一个第一声音采集模块,所述第一声音采集模块分布环绕所述装置本体,其中:所述第一声音采集模块,用于采集所述智能用户设备设定区域内的声音数据,并将所述声音数据发送给控制模块;所述控制模块,具体用于接收所述声音数据,在分析出所述声音数据中包含用户所做的动作发出的声音时,确定智能用户设备的设定区域内有用户存在。4.如权利要求3所述的装置,其特征在于,所述控制模块,还用于在开启第二声音采集模块获得声音数据时,关闭所述第一声音采集模块。5.如权...

【专利技术属性】
技术研发人员:马帅于渊
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1