一种辅助语音识别控制方法和装置制造方法及图纸

技术编号：26344811 阅读：35 留言：0更新日期：2020-11-13 21:02

本发明专利技术公开了一种辅助语音识别控制方法及装置。辅助语音识别控制方法包括如下步骤：当客户与设备进行人机交互活动时，红外传感器检测到信号，红外数据采集模块将红外触发数据传递给上位机辅助控制系统，判断客户到达动作；当上位机辅助控制系统检测到红外传感器被触发后，启动人脸检测模块；当人脸检测模块上限定的交互热区中未检测到人脸，便启动摄像头微动方案，增加摄像头获取图像角度；当摄像头通过微动方案调整后，仍未检测到人脸，则关闭语音识别开关；当摄像头检测到人脸，此时启动客户说话检测模块，判断客户是否说话：若客户未张嘴说话，则关闭语音识别开关；若判断客户正在说话，则进行语言检测和识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种辅助语音识别控制方法和装置
本专利技术属于语音识别
，尤其涉及一种辅助语音识别控制方法和装置。
技术介绍
在语音识别系统中，正确有效的进行语音端点检测(VoiceActivityDetection,VAD)不仅可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰，提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端，同时也包含了无用的背景噪声段，语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点，将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中，通常使用语音能量的检测器进行语音端点检测，但是这种语音段在检测方法在嘈杂的环境下经常失效，从而造成干扰语音也作为目标语音送往语音识别引擎，造成语音识别系统抗干扰能力差，影响语音识别效果，最终影响客户交互体验。中国专利CN110875060A公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括：使用图像采集设备获取实时图像，利用所述实时图像进行人脸识别，根据人脸识别结果检测目标人员发出语音的时间段(根据判断人嘴巴的...

【技术保护点】
1.一种辅助语音识别控制方法，其特征在于，包括如下步骤：/n当客户与设备进行人机交互活动时，红外传感器检测到信号，红外数据采集模块将红外触发数据传递给上位机辅助控制系统，判断客户到达动作；/n当上位机辅助控制系统检测到红外传感器被触发后，启动人脸检测模块，并开启VAD端点检测模块和语音识别开关；/n当限定图像交互热区的人脸检测未检测到人脸，便启动摄像头微动方案，增加摄像头获取图像角度；/n当摄像头通过微动方案调整后，仍未检测到人脸，则关闭语音识别开关和VAD端点检测模块；/n当摄像头检测到人脸，此时启动客户说话检测模块，判断客户是否说话：若客户未张嘴说话，则关闭语音识别开关和VAD端点检测模块...

【技术特征摘要】
1.一种辅助语音识别控制方法，其特征在于，包括如下步骤：
当客户与设备进行人机交互活动时，红外传感器检测到信号，红外数据采集模块将红外触发数据传递给上位机辅助控制系统，判断客户到达动作；
当上位机辅助控制系统检测到红外传感器被触发后，启动人脸检测模块，并开启VAD端点检测模块和语音识别开关；
当限定图像交互热区的人脸检测未检测到人脸，便启动摄像头微动方案，增加摄像头获取图像角度；
当摄像头通过微动方案调整后，仍未检测到人脸，则关闭语音识别开关和VAD端点检测模块；
当摄像头检测到人脸，此时启动客户说话检测模块，判断客户是否说话：若客户未张嘴说话，则关闭语音识别开关和VAD端点检测模块；若判断客户正在说话，VAD端点检测模块控制语音音频拾音，将采集到的人声送到语音识别模块去识别文字。

2.根据权利要求1所述的辅助语音识别控制方法，其特征在于：
人脸检测模块中预设一图像交互热区，图像交互热区通过在视频帧里限定热区对角的坐标值来设定，若人脸识别模块识别到的人脸中心位置在图像交互热区内，则判断为客户在交互区域。

3.根据权利要求2所述的辅助语音识别控制方法，其特征在于：还结合线性阵列麦克风声源定位模块来判断交互热区；
在人机交互过程中，通过线性阵列麦克风声源定位模块实时输出声源的立体方位，限定立体方位中的角度阈值为声源热区；当图像交互热区和声源热区同时满足时，才判定交互者处于可交互状态；否则关闭拾音模块和VAD端点检测模块。

4.根据权利要求3所述的辅助语音识别控制方法，其特征在于：
立体方位包括以下6个方位角度，第一角度(0，30)，第二角度(30，60)，第三角度(60，90)，第四角度(90，120)，第五角度(120，150)，第六角度(150，180)；声源方向第三和第四角度设定为可交互的声源热区。

5.根据权利要求1所述的辅助语音识别控制方法，其特征在于：
人脸检测模块1秒钟获取8-16帧图片，客户说话检测模块根据人脸检测模块产生的人脸特征位置，取上嘴唇和下嘴唇对应的特征点的张合距离，判断客户是否说话；
若每秒钟超过4-8帧的嘴巴为张开状态，则判断此...

【专利技术属性】
技术研发人员：孙非凡，周院平，孙信中，矫人全，
申请(专利权)人：南京奥拓电子科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人