【技术实现步骤摘要】
语音信号处理方法、装置、系统、设备和存储介质
本专利技术涉及数据处理
,尤其涉及语音信号处理方法、装置、系统、设备和存储介质。
技术介绍
在语音识别系统中,正确有效的进行语音端点检测(VoiceActivityDetection,VAD)不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端,同时也包含了无用的背景噪声段,语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中,通常使用语音能量的检测器进行语音端点检测,但是这种语音段在检测方法在嘈杂的环境下经常失效,从而造成干扰语音也作为目标语音送往语音识别引擎,造成语音识别系统抗干扰能力差。
技术实现思路
本专利技术实施例提供一种语音信号处理方法、装置、系统、设备和存储介质,可以实现在多干扰源的嘈杂环境下,提高语音识别系统的抗干扰能力。根据本专利技术实施例的一方面,提供一种语音信号处理 ...
【技术保护点】
1.一种语音信号处理方法,包括:/n使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段;/n对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;/n根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。/n
【技术特征摘要】
1.一种语音信号处理方法,包括:
使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段;
对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;
根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。
2.根据权利要求1所述的语音信号处理方法,其中,所述利用所述实时图像进行人脸识别,包括:
检测所述实时图像中是否存在人脸图像;
所述实时图像中存在人脸图像时,对所述人脸图像进行人脸特征点识别,确定所述人脸图像中人嘴部边缘的特征点。
3.根据权利要求1所述的语音信号处理方法,其中,所述根据人脸识别结果检测目标人员发出语音的时间段,包括:
获取所述人脸识别结果中人嘴部边缘的特征点,根据所述人嘴部边缘的特征点的特征值变化信息,确定是否存在嘴部张合动作;
将存在所述嘴部张合动作的人员作为所述目标人员;以及
将所述目标人员的嘴部张合动作在所述实时图像中的持续时间段,作为所述目标人员发出语音的时间段。
4.根据权利要求1所述的语音信号处理方法,其中,所述对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息,包括:
通过所述声源定位,得到所述音频信号中的声源的方位信息,所述方位信息包括所述声源相对于所述麦克风阵列的水平角、俯仰角和距离。
5.根据权利要求1所述的语音信号处理方法,其中,所述根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点,包括:
根据所述声源的方位信息,确定所述麦克风阵列的收音范围,获取所述收音范围内的音频信号;
对所述收音范围内的音频信号进行语音检测,确定所述收音范围内的音频信号的语音存在概率;
当所述收音范围内的音频信号的语音存在概率大于预设概率阈值时,根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。
6.根据权利要求5所述的语音信号处理方法,其中,所述对所述收音范围内的音频信号进行语音检测,确定所述收音范围内的音频信号的语音存在概率,包括:
通过所述语音检测,提取所述音频信号的声学特征;
比较所述声学特征的特征值和语音信号声学特征的系统阈值,通过比较结果确定所述音频信号中是否存在语音信号;
根据所述音频信号中是否存在语音信号,确定所述语音存在概率。
7.根据权利要求5所述的语音信号...
【专利技术属性】
技术研发人员:田彪,何召卫,余涛,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。