The invention discloses an array speech enhancement algorithm, which includes the following steps: 1) estimating the noise of the frequency band roughly by defining the received audio signal and tracking the minimum value of the noise speech power of each frequency band; 2 0 time-frequency masking estimation: defining the posterior probability of speech occurrence at a certain time-frequency point as the masking coefficient of the current time-frequency point; For estimating the probability of noise and speech on the spectrum; S30 array MVDR weight vector estimation: By defining the frequency domain vector of each frame of multi-channel input signal, it is used to estimate the specific orientation of the target sound source. The invention maximizes the effective speech under the condition of minimum distortion, so that the speech recognition rate after multi-channel enhancement can be significantly improved and the speech signal can be enhanced. The signal-to-noise ratio (SNR) greatly enhances the intelligibility of speech.
【技术实现步骤摘要】
一种阵列语音增强算法
本专利技术涉及语音处理
,具体为一种阵列语音增强算法。
技术介绍
语音作为最基本的交流媒介在日常生活中扮演重要角色,随着科技飞速发展,作为人机交互的一个重要入口,高准确度,低误识的语音识别日益受到业界的广泛关注,其中输入语音的清晰度对识别性能的提升至关重要。然而在现实环境中,语音不可避免的会受到周围复杂噪声环境的影响,语音内容的可懂度降低,导致语音识别的性能急剧恶化。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术提供了一种阵列语音增强算法。为实现上述目的,本专利技术提供如下技术方案:一种阵列语音增强算法,包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。作为本专利技术一种优选的技术方案,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd。作为本专利技术一种优选的技术方案,利用递归平均方法估计λd的具体执行如下:a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表 ...
【技术保护点】
1.一种阵列语音增强算法,其特征在于包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。
【技术特征摘要】
1.一种阵列语音增强算法,其特征在于包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。2.根据权利要求1所述的一种阵列语音增强算法,其特征在于,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd。3.根据权利要求2所述的一种阵列语音增强算法,其特征在于,利用递归平均方法估计λd的具体执行如下:a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表示第l帧第k个频点上的噪声功率;b、考虑噪声不存在的情况下:(1)、估计时频点功率:Sf=|Y|2(2)、功率谱沿时间平滑:S=λsS+(1-λs)Sf(3)、累积实时记录最小功率值Smin,通过当前帧功率与加权后Smin值比较估计当前时频点为语音的概率If(0,1分布),该概率实时平均结果PS作为当前点的语音mask,其中:Smin=min(Smin,S)If=S>Smin·δsPS=λpPS+(1-λp)If(4)、PS=1即当前时频点很可能是语音信号时,不更新噪声谱;只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱,由此以软判决方式估计当前时频点的功率值:λd=PSλd+(1-PS)(αdλd+(1-αd)|Y|2);c、噪声跟踪实时处理:在累积记录最小功率值时,为保证最小功率跟踪的实时性,每跨越若干帧,及时修正最小功率,具体实现如下:(1)、定义矩阵SW用于存储N_WIN(=8)次累积的NFFT_BINS个频点的最小功率值;(2)、累积记录跨越的帧数,当计数到V_WIN(=15)帧时,存入当前V_WIN帧的功率最小值Stmp=min(Stmp,S),同时将Stmp重新初始化:Stmp=S;当存满N_WIN帧时,每次存入新数据的同时剔除最早存储的那个最小功率;(3)、修正后的最小功率值为:Smin=min(SW)。4.根据权利要求3所述的一种阵列语音增强算法,其特征在于,于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,为此做如...
【专利技术属性】
技术研发人员:蔡洪滨,何昕,陈学超,顾樑,
申请(专利权)人:上海声瀚信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。