一种辅助语音识别控制方法和装置制造方法及图纸

技术编号:26344811 阅读:27 留言:0更新日期:2020-11-13 21:02
本发明专利技术公开了一种辅助语音识别控制方法及装置。辅助语音识别控制方法包括如下步骤:当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块;当人脸检测模块上限定的交互热区中未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关;当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关;若判断客户正在说话,则进行语言检测和识别。

【技术实现步骤摘要】
一种辅助语音识别控制方法和装置
本专利技术属于语音识别
,尤其涉及一种辅助语音识别控制方法和装置。
技术介绍
在语音识别系统中,正确有效的进行语音端点检测(VoiceActivityDetection,VAD)不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端,同时也包含了无用的背景噪声段,语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中,通常使用语音能量的检测器进行语音端点检测,但是这种语音段在检测方法在嘈杂的环境下经常失效,从而造成干扰语音也作为目标语音送往语音识别引擎,造成语音识别系统抗干扰能力差,影响语音识别效果,最终影响客户交互体验。中国专利CN110875060A公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括:使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段(根据判断人嘴巴的张合来判断说话时机);对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。根据本专利技术实施例提供的语音信号处理方法,可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测,提高系统的抗干扰能力。中国专利CN111048066A提出了一种儿童机器人上利用图像辅助的语音端点检测系统,所述语音端点检测系统包括机器人唤醒模块、摄像头取景启动模块、拾音进程中动态检测模块和拾音开启前动态检测模块;其中,所述机器人唤醒模块,用于启动机器人准备进入拾音状态;所述摄像头取景启动模块,用于启动机器的摄像头针对用户头像进行取景拍摄;所述拾音进程中动态检测模块,用于检测用户在拾音进程中的实时的头部动态情况;所述拾音开启前动态检测模块,用于检测用户在拾音开启前的实时的头部动态情况。上述专利均存在以下缺点:1、因为摄像头是有一定获取图像的角度,而面对不同身高(例如:小孩和成年人,男人或女人)的客户,该方案里的图像采集设备将会无法获取高质量的人脸图像,即可能摄像头采集不到或者不全的人脸图像,所以就无法实施检测目标人员发出语音的时间段的目的。2、一般普通摄像头(非广角)所采集区域也可能存在多人脸的情况(注:广角摄像头采集区域会更广),将会导致,无法判断目标客户(正在人机交互的客户)是谁,就更无法获取目标客户的有效辅助信息(例如:客户是否说话,客户是否盯着屏幕看等信息)或存在误导。3、仅仅通过摄像头来判断是否客户到达,可能存在误判或失效情况。例如:客户站立的交互位置不佳或身高过高或过低,导致的不在摄像头采集范围等情况。
技术实现思路
针对上述技术问题,本专利技术公开一种辅助语音识别控制方法和装置,提升语音识别系统抗干扰能力,增强语音识别效果。为达到上述目的,本专利技术采用的技术方案如下。本专利技术公开了一种辅助语音识别控制方法,主要流程如下:当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作。当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关。此时打开,能够防止客户不在人脸检测范围时,造成的交互体验差,若后续检测没人会再关闭。当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度。当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块,防止噪音输入。当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话,若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块。若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。进一步的,人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在交互区域内,则判断为客户在交互区域。优选的,热区的划定,只需要在视频帧里限定x1y1点(热区左下角)和x2y2(热区右上角)的值,然后就可以判断。例如鼻子中心点是x0y0,如果x1<x0<x2,y1<y0<y2即可判断鼻子中心在图像交互热区里。进一步的,关于交互热区的限定判断,还结合线性阵列麦克风声源定位模块来判断。在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态。作为优选的,立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180)。声源方向第三和第四角度设定为可交互的声源热区。上述判断,可防止声源非中心交互区域的误收音,例如客户在图像交互热区内且判定为说话状态,可能是说话状态模块的误判或者说话着声音小无法进行有效拾音,且其他方向有人在说话,即此时声源方向判定为非声源交互区域,则关闭拾音模块和VAD端点检测模块。进一步的,人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;若每秒钟超过4-8帧的嘴巴为张开状态,则判断此时客户为说话状态,反之,此时未说话状态。进一步的,VAD端点检测模块使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。本专利技术还公开了一种辅助语音识别控制装置,包括:上位机辅助控制系统,上位机辅助控制系统连接红外数据采集模块、VAD端点检测模块、人脸检测模块、客户说话检测模块、摄像头角度调整微动模块等;红外数据采集模块的红外传感器覆盖上位机的交互区域;上位机通过串口连接红外数据采集模块,实时获取红外触发数据。当有人交互时,可以第一时间通知上位机辅助控制系统。VAD端点检测模块:使用语音能量检测器进行语音端点检测,从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段两类。由于摄像头有一定的广角,所以我们对摄像头范围进行预处理,在人脸检测模块中设定一个图像交互热区,图像交互热区有效减小多人交互时对系统进行的干扰。客户说话检测模块:根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话。摄像头角度调整微动模块:上位机辅助控制系统对摄像头角度调整微动模块进行串口通信。进一步的,图像交互热区的划定方法为:在视频帧里限定热区对角的坐标值。进一步的,还包括线性阵本文档来自技高网
...

【技术保护点】
1.一种辅助语音识别控制方法,其特征在于,包括如下步骤:/n当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;/n当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关;/n当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;/n当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块;/n当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块;若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。/n

【技术特征摘要】
1.一种辅助语音识别控制方法,其特征在于,包括如下步骤:
当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;
当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关;
当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;
当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块;
当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块;若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。


2.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在图像交互热区内,则判断为客户在交互区域。


3.根据权利要求2所述的辅助语音识别控制方法,其特征在于:还结合线性阵列麦克风声源定位模块来判断交互热区;
在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态;否则关闭拾音模块和VAD端点检测模块。


4.根据权利要求3所述的辅助语音识别控制方法,其特征在于:
立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。


5.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;
若每秒钟超过4-8帧的嘴巴为张开状态,则判断此...

【专利技术属性】
技术研发人员:孙非凡周院平孙信中矫人全
申请(专利权)人:南京奥拓电子科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1