一种阵列语音增强算法制造技术

技术编号:20285850 阅读:42 留言:0更新日期:2019-02-10 18:08
本发明专利技术公开了一种阵列语音增强算法,包括额步骤有S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位,本发明专利技术在最小畸变的条件下最大程度的提升有效语音,使经多路增强后的语音信号识别率得到明显提升,增强语音信号的信噪比,大大增强了语音的可懂度。

An Array Speech Enhancement Algorithm

The invention discloses an array speech enhancement algorithm, which includes the following steps: 1) estimating the noise of the frequency band roughly by defining the received audio signal and tracking the minimum value of the noise speech power of each frequency band; 2 0 time-frequency masking estimation: defining the posterior probability of speech occurrence at a certain time-frequency point as the masking coefficient of the current time-frequency point; For estimating the probability of noise and speech on the spectrum; S30 array MVDR weight vector estimation: By defining the frequency domain vector of each frame of multi-channel input signal, it is used to estimate the specific orientation of the target sound source. The invention maximizes the effective speech under the condition of minimum distortion, so that the speech recognition rate after multi-channel enhancement can be significantly improved and the speech signal can be enhanced. The signal-to-noise ratio (SNR) greatly enhances the intelligibility of speech.

【技术实现步骤摘要】
一种阵列语音增强算法
本专利技术涉及语音处理
,具体为一种阵列语音增强算法。
技术介绍
语音作为最基本的交流媒介在日常生活中扮演重要角色,随着科技飞速发展,作为人机交互的一个重要入口,高准确度,低误识的语音识别日益受到业界的广泛关注,其中输入语音的清晰度对识别性能的提升至关重要。然而在现实环境中,语音不可避免的会受到周围复杂噪声环境的影响,语音内容的可懂度降低,导致语音识别的性能急剧恶化。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术提供了一种阵列语音增强算法。为实现上述目的,本专利技术提供如下技术方案:一种阵列语音增强算法,包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。作为本专利技术一种优选的技术方案,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd。作为本专利技术一种优选的技术方案,利用递归平均方法估计λd的具体执行如下:a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表示第l帧第k个频点上的噪声功率;b、考虑噪声不存在的情况下:(1)、估计时频点功率:Sf=|Y|2(2)、功率谱沿时间平滑:S=λsS+(1-λs)Sf(3)、累积实时记录最小功率值Smin,通过当前帧功率与加权后Smin值比较估计当前时频点为语音的概率If(0,1分布),该概率实时平均结果PS作为当前点的语音mask,其中:Smin=min(Smin,S)If=S>Smin·δsPS=λpPS+(1-λp)If(4)、PS=1即当前时频点很可能是语音信号时,不更新噪声谱;只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱,由此以软判决方式估计当前时频点的功率值:λd=PSλd+(1-PS)(αdλd+(1-αd)|Y|2);c、噪声跟踪实时处理:在累积记录最小功率值时,为保证最小功率跟踪的实时性,每跨越若干帧,及时修正最小功率,具体实现如下:(1)、定义矩阵SW用于存储N_WIN(=8)次累积的NFFT_BINS个频点的最小功率值;(2)、累积记录跨越的帧数,当计数到V_WIN(=15)帧时,存入当前V_WIN帧的功率最小值Stmp=min(Stmp,S),同时将Stmp重新初始化:Stmp=S;当存满N_WIN帧时,每次存入新数据的同时剔除最早存储的那个最小功率;(3)、修正后的最小功率值为:Smin=min(SW)。作为本专利技术一种优选的技术方案,于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,为此做如下相关参数定义:a、H1表示语音存在、H0表示语音不存在;b、输入信号的各个时频点上语音存在的后验概率p=P(H1|Y);c、语音不存在的先验概率可表示为q=P(H0),假定语音与噪声幅度谱均服从均值为0的高斯分布,即:X(k,l)~N(0,λx),D(k,l)~N(0,λd),且语音与噪声相互独立,由此可以得到噪声以及语音的条件概率分布函数;d、定义先验信噪比:后验信噪比:可以通过贝叶斯公式以及高斯分布函数得到语音存在的后验概率表示如下:其中表示实时计算得到的先验信噪比,由决策导向估计得到:其中估算的得到当前帧先验信噪比后,通过对当前帧信噪比与固定阈值的对比判断当前帧信号是否为噪声信号,从而估算出当前帧噪声存在的先验概率为进一步提升噪声概率估计灵活性,添加调节参数k,修正公式得到:k越大,噪声出现的可能性越小,即被抑制的越严重;为简化计算量,可直接利用PS=λpPS+(1-λp)If得到的结果作为语音存在概率p(k,l)的粗略估计。作为本专利技术一种优选的技术方案,于步骤S30中定义多路输入信号每帧的频域向量如下:即有M路输入录音,利用信号的时频掩蔽系数以及M路输入的自相关矩阵,估计信号中语音相关矩阵RS以及噪声自相关矩阵RN;当导向向量未知时,利用RS归一化后的主特征向量作为向向量通过MVDR经典参数估计得到增益向量:对每帧信号时频点滤波后得到增强后的信号:由此求解得到的增强信号性能的优劣取决于噪声频域相关矩阵以及导向向量估计的准确度,其中涉及到的关键步骤如下:(1)相关矩阵估计对相关矩阵的估计,单一帧的相关矩阵无法满足满秩且不具有统计特性。为此我们取8~10帧相关帧的平均作为最终的输入信号相关矩阵其中L表示统计的帧数(L=8)。在已知当前帧数据噪声出现概率的基础上,估计噪声以及语音相关阵:与(2)导向向量的估计当前假定仅存在一个有效目标方向语音,不存在相干噪声的情况下,基于理想情况下,导向向量与语音自相关矩阵RS的导向向量方向一致的基础(rank(RS)=1),对RS进行特征值分解,取模最大的特征值对应的特征向量为导向向量。作为本专利技术一种优选的技术方案,还包括后滤波处理步骤,该步骤使用基于ML的谱增益系数递归计算,即定义后验SNR:其中||Y||2表示接收信号的功率谱,λd表示估计的噪声功率谱,递归平均后:由此得到的增益系数可表示为:作为本专利技术一种优选的技术方案,基于谱减给出后滤波权系数为:作为本专利技术一种优选的技术方案,通过添加调节系数,更新权增益系数为:与现有技术相比,本专利技术的有益效果是:本专利技术在最小畸变的条件下最大程度的提升有效语音,使经多路增强后的语音信号识别率得到明显提升,增强语音信号的信噪比,大大增强了语音的可懂度。附图说明图1为本专利技术提供的一种阵列语音增强算法流程示意图;图2为本专利技术提供的一种阵列语音增强算法中权系数评估框图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种阵列语音增强算法,包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。在对于音频信号处理方式中,我们一般视为短时平稳(约30ms以内视为平稳信号),为了提升处理的效果与速度,一般会经过短时傅里叶变换将其转换至频域处理,在处理完成得到最终的增强后的频域信号后,在经过短时傅里叶反变换,将处理后的信号重新拼接回时域,在本专利技术中通过对频域信号频谱信息的分析,以及阵列信号空间特征信息的处理得到经过频域加权后的系统输出。本文档来自技高网...

【技术保护点】
1.一种阵列语音增强算法,其特征在于包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。

【技术特征摘要】
1.一种阵列语音增强算法,其特征在于包括以下步骤:S10噪声估计:通过定义接收到的音频信号,利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计;S20时频掩蔽估计:通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,用于估计噪声和语音在语谱图上存在的概率;S30阵列MVDR权系数向量估计:通过定义多路输入信号每帧的频域向量,用于估计目标声源的具体方位。2.根据权利要求1所述的一种阵列语音增强算法,其特征在于,于步骤S10中定义接收到的音频信号表示为:Y(k,l)=X(k,l)+D(k,l),其中X(k,l)表示语音信号,D(k,l)表示噪声信号频谱,然后定义语音功率谱为λx(k,l),噪声功率谱为λd(k,l),通过递归平均方法估计λd。3.根据权利要求2所述的一种阵列语音增强算法,其特征在于,利用递归平均方法估计λd的具体执行如下:a、不考虑噪声不存在概率时,可以通过递归平均估算噪声功率谱:λd=αdλd+(1-αd)||Y(k,l)||2,为简化表示,此处λd=λd(k,l)表示第l帧第k个频点上的噪声功率;b、考虑噪声不存在的情况下:(1)、估计时频点功率:Sf=|Y|2(2)、功率谱沿时间平滑:S=λsS+(1-λs)Sf(3)、累积实时记录最小功率值Smin,通过当前帧功率与加权后Smin值比较估计当前时频点为语音的概率If(0,1分布),该概率实时平均结果PS作为当前点的语音mask,其中:Smin=min(Smin,S)If=S>Smin·δsPS=λpPS+(1-λp)If(4)、PS=1即当前时频点很可能是语音信号时,不更新噪声谱;只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱,由此以软判决方式估计当前时频点的功率值:λd=PSλd+(1-PS)(αdλd+(1-αd)|Y|2);c、噪声跟踪实时处理:在累积记录最小功率值时,为保证最小功率跟踪的实时性,每跨越若干帧,及时修正最小功率,具体实现如下:(1)、定义矩阵SW用于存储N_WIN(=8)次累积的NFFT_BINS个频点的最小功率值;(2)、累积记录跨越的帧数,当计数到V_WIN(=15)帧时,存入当前V_WIN帧的功率最小值Stmp=min(Stmp,S),同时将Stmp重新初始化:Stmp=S;当存满N_WIN帧时,每次存入新数据的同时剔除最早存储的那个最小功率;(3)、修正后的最小功率值为:Smin=min(SW)。4.根据权利要求3所述的一种阵列语音增强算法,其特征在于,于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数,为此做如...

【专利技术属性】
技术研发人员:蔡洪滨何昕陈学超顾樑
申请(专利权)人:上海声瀚信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1