【技术实现步骤摘要】
定向语音的增强方法及系统
本专利技术涉及语音增强领域,尤其涉及一种定向语音的增强方法及系统。
技术介绍
为了提高语音采集、识别效果,会考虑到目标源说话的位置,进行定向拾音。通常会使用:1、通过定向拾音指令,得到所需角度,然后经延时补偿,再经预设滤波器算法降噪,其噪声估计方法为对数谱幅度最优估计法和/或MCRA算法;2、通过TDOA方法求得目标声源大致方向,再由MVDR计算目标声源的加权矢量,最终获得目标声源准确位置处的定向拾音数据;3、通过智能设备的唤醒功能和多个瞬时到达方向值,求得音频信号的实际到达方向,再对该方向进行定向的拾音。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:1、噪声估计方法为传统信号处理方法,只能估计较为平稳的噪声,无法处理突变的噪声,如鼠标键盘点击声、音乐铃声、关门声等;2、TDOA在存在环境噪声的情况下,目标方向的准确率会下降,噪声越强准确率越低,方向计算错误会严重影响拾音效果且该方案无法处理和目标声源方向同向的噪声;3、需要语音唤醒这个功能模块,如 ...
【技术保护点】
1.一种定向语音的增强方法,包括:/n利用m个麦克风的麦克风阵列将空间划分成n个区间,对所述n个区间进行信号定向增强,其中,m,n≥2,n随着m的递增而递增,以对目标声源和噪声源在空间上进行初步区分;/n采集所述n个区间中n条通道的语音信号;/n将所述n条通道的语音信号输入至通道选择模块,若不存在指定的收音区间时,基于神经网络确定所述n条通道的语音信号的参数大小,确定所述n个区间中的定向收音区间,将所述定向收音区间对应通道的语音信号确定为增强定向语音,其中,所述语音信号的参数包括:神经网络节点的数值、宽带/子带语音幅度比值、宽带/子带语音能量/幅度、宽带/子带语音信噪比中的至少一种。/n
【技术特征摘要】
1.一种定向语音的增强方法,包括:
利用m个麦克风的麦克风阵列将空间划分成n个区间,对所述n个区间进行信号定向增强,其中,m,n≥2,n随着m的递增而递增,以对目标声源和噪声源在空间上进行初步区分;
采集所述n个区间中n条通道的语音信号;
将所述n条通道的语音信号输入至通道选择模块,若不存在指定的收音区间时,基于神经网络确定所述n条通道的语音信号的参数大小,确定所述n个区间中的定向收音区间,将所述定向收音区间对应通道的语音信号确定为增强定向语音,其中,所述语音信号的参数包括:神经网络节点的数值、宽带/子带语音幅度比值、宽带/子带语音能量/幅度、宽带/子带语音信噪比中的至少一种。
2.一种定向语音的增强方法,包括:
利用m个麦克风的麦克风阵列将空间划分成n个区间,对所述n个区间进行信号定向增强,其中,m,n≥2,n随着m的递增而递增,以对目标声源和噪声源在空间上进行初步区分;
采集所述n个区间中n条通道的语音信号,提取所述n条通道的语音信号中每一帧的语音特征,输入至降噪神经网络模型,输出所述n条通道的降噪信号,以扩大所述目标声源和噪声源的差异;
将所述n条通道的降噪信号输入至通道选择模块,若不存在指定的收音区间时,基于神经网络确定所述n条通道的降噪信号的参数大小,确定所述n个区间中的定向收音区间,将所述定向收音区间对应通道的降噪信号确定为增强定向语音,其中,所述降噪信号的参数包括:神经网络节点的数值、宽带/子带语音幅度比值、宽带/子带语音能量/幅度、宽带/子带语音信噪比中的至少一种。
3.根据权利要求2所述的方法,其中,所述降噪神经网络模型由语音/噪声频谱训练,包括:
基于搭载麦克风阵列的设备的性能,选择降噪神经网络模型的类型;
提取带噪训练语音集合内各带噪语音的语音特征,将所述语音特征作为所述降噪神经网络模型的输入进行训练,直至所述降噪神经网络模型输出的估计语音/噪声频谱向预设的基准语音/噪声频谱收敛,其中,语音/噪声频谱包括:语音/噪声能量比或语音/噪声幅度谱,所述估计语音/噪声频谱用于对所述语音信号进行语音降噪。
4.根据权利要求2所述的方法,其中,所述将所述n条通道的降噪信号输入至通道选择模块还包括:
若存在指定的收音区间时,将所述指定的收音区间对应通道的降噪信号确定为增强定向语音。
5.根据权利要求2所述的方法,其中,所述利用m个麦克风的麦克风阵列将空间划分成n个区间包括:
基于用户预设的指定空间,利用m个麦克风的麦克风阵列将空间划分成n个等分或n个不等分的区间。
6.一种定向...
【专利技术属性】
技术研发人员:周晨,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。