【技术实现步骤摘要】
一种辅助语音识别控制方法和装置
本专利技术属于语音识别
,尤其涉及一种辅助语音识别控制方法和装置。
技术介绍
在语音识别系统中,正确有效的进行语音端点检测(VoiceActivityDetection,VAD)不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端,同时也包含了无用的背景噪声段,语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中,通常使用语音能量的检测器进行语音端点检测,但是这种语音段在检测方法在嘈杂的环境下经常失效,从而造成干扰语音也作为目标语音送往语音识别引擎,造成语音识别系统抗干扰能力差,影响语音识别效果,最终影响客户交互体验。中国专利CN110875060A公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括:使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段(根据判断人嘴巴的张合来判断说话时机);对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。根据本专利技术实施例提供的语音信号处理方法,可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测,提高系统的抗干扰能力。中国专利CN111048066A提出了一种儿童机器人上利 ...
【技术保护点】
1.一种辅助语音识别控制方法,其特征在于,包括如下步骤:/n当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;/n当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关;/n当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;/n当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块;/n当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块;若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。/n
【技术特征摘要】
1.一种辅助语音识别控制方法,其特征在于,包括如下步骤:
当客户与设备进行人机交互活动时,红外传感器检测到信号,红外数据采集模块将红外触发数据传递给上位机辅助控制系统,判断客户到达动作;
当上位机辅助控制系统检测到红外传感器被触发后,启动人脸检测模块,并开启VAD端点检测模块和语音识别开关;
当限定图像交互热区的人脸检测未检测到人脸,便启动摄像头微动方案,增加摄像头获取图像角度;
当摄像头通过微动方案调整后,仍未检测到人脸,则关闭语音识别开关和VAD端点检测模块;
当摄像头检测到人脸,此时启动客户说话检测模块,判断客户是否说话:若客户未张嘴说话,则关闭语音识别开关和VAD端点检测模块;若判断客户正在说话,VAD端点检测模块控制语音音频拾音,将采集到的人声送到语音识别模块去识别文字。
2.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
人脸检测模块中预设一图像交互热区,图像交互热区通过在视频帧里限定热区对角的坐标值来设定,若人脸识别模块识别到的人脸中心位置在图像交互热区内,则判断为客户在交互区域。
3.根据权利要求2所述的辅助语音识别控制方法,其特征在于:还结合线性阵列麦克风声源定位模块来判断交互热区;
在人机交互过程中,通过线性阵列麦克风声源定位模块实时输出声源的立体方位,限定立体方位中的角度阈值为声源热区;当图像交互热区和声源热区同时满足时,才判定交互者处于可交互状态;否则关闭拾音模块和VAD端点检测模块。
4.根据权利要求3所述的辅助语音识别控制方法,其特征在于:
立体方位包括以下6个方位角度,第一角度(0,30),第二角度(30,60),第三角度(60,90),第四角度(90,120),第五角度(120,150),第六角度(150,180);声源方向第三和第四角度设定为可交互的声源热区。
5.根据权利要求1所述的辅助语音识别控制方法,其特征在于:
人脸检测模块1秒钟获取8-16帧图片,客户说话检测模块根据人脸检测模块产生的人脸特征位置,取上嘴唇和下嘴唇对应的特征点的张合距离,判断客户是否说话;
若每秒钟超过4-8帧的嘴巴为张开状态,则判断此...
【专利技术属性】
技术研发人员:孙非凡,周院平,孙信中,矫人全,
申请(专利权)人:南京奥拓电子科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。