基于语音信号先验概率特性的语音信号增强方法及系统技术方案

技术编号：40052521 阅读：6 留言：0更新日期：2024-01-16 21:25

本发明专利技术涉及语音增强领域技术领域，特别涉及一种基于语音信号先验概率特性的语音信号增强方法及系统。所述方法包括：1)对时域采集信号进行短时傅里叶变换，得到多通道的时频域采集信号；2)获得语音信号能量初步估计值；3)基于语音先验概率特性，利用语音信号能量初步估计值对广义旁瓣消除器进行更新，用于对多通道的时频域采集信号进行空间滤波；利用估计的时频域语音信号二次估计语音信号能量，以保证时频域语音信号的鲁棒性；4)对估计的时频域语音信号进行短时傅里叶逆变换，得到估计的时域语音信号。本发明专利技术利用语音信号的先验统计概率信息改进了传统算法的代价函数，使广义旁瓣消除器的更新将更为稳健，且有效的减缓了语音失真问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音增强领域，特别涉及一种基于语音信号先验概率特性的语音信号增强方法及系统。

技术介绍

1、多通道语音增强通过对传声器阵列采集得到的多路信号进行空间滤波来实现期望语音信号的提取。相比单通道语音增强，多通道语音增强可以同时利用时域频域及空域的信息来实现期望语音的提取，具有更高的降噪性能上限。此外，多通道语音增强方法理论上可以保证处理后的期望语音是无失真的。多通道语音增强在会议系统、助听器和人机交互系统有着重要的作用。

2、多通道语音增强方法常采用的实现手段是波束形成。按照波束形成器的系数是否根据采集数据而自适应的调节，波束形成器可以分为固定波束形成和自适应波束形成。固定波束形成器一般假定噪声场服从一些特定的空间分布形式，然后设计对应噪声场的最优波束形成器。当实际的噪声场满足假定的空间分布形式时，固定波束形成器的效果较好。但是当实际的噪声场不满足假定的分布形式时(而这是实际中常遇到的情况)，固定波束形成对于噪声效果的效果变差。相比于固定波束形成器，自适应保护形成器则根据环境中噪声场的变化来自动地调整其系数，理论上可以实现更好的降噪效果。

3、如图1所示，在实际环境下用传声器阵列采集声频信号时，除了会采集到期望说话人的信号，还不可避免地采集到说话人声音的混响信号和噪声信号。自适应波束形成器系统通过对采集的多个通道信号线性滤波来实现期望语音信号的提取。在各类自适应波束形成器中，广义旁瓣消除器因其简单高效的结构而被广泛研究与应用。广义旁瓣消除器(generalized sidelobe cancell

技术实现思路

1、本专利技术的目的在于，克服现有语音增强技术中，广义旁瓣消除器中自适应干扰消除器更新控制较难导致的语音失真或语音噪声残留的问题，从而提供一种基于语音信号先验概率特性的语音信号增强方法及系统，本专利技术基于语音先验概率特性，利用语音信号能量估计值对广义旁瓣消除器进行更新，克服了广义旁瓣消除器中自适应干扰消除器更新控制较难的问题，提高了广义旁瓣消除器更新的稳健性。为解决上述技术问题，本专利技术的技术方案所提供的基于语音信号先验概率特性的语音信号增强方法，包括以下步骤：

2、步骤1)对传声器阵列采集的多通道的时域采集信号进行短时傅里叶变换，得到多通道的时频域采集信号；

3、步骤2)利用多通道信息，初步估计语音信号能量，以获得语音信号能量初步估计值；

4、步骤3)基于语音先验概率特性，利用语音信号能量初步估计值对广义旁瓣消除器进行更新；利用更新后的广义旁瓣消除器对多通道的时频域采集信号进行空间滤波，以去除噪音并得到估计的时频域语音信号；利用估计的时频域语音信号二次估计语音信号能量，获得语音信号能量二次估计值，以保证时频域语音信号的鲁棒性；

5、步骤4)对估计的时频域语音信号进行短时傅里叶逆变换，得到估计的时域语音信号。

6、作为上述方法的一种改进，所述步骤1)具体包括：

7、对传声器阵列采集的m个通道的时域采集信号进行短时傅里叶变换，得到m个通道的时频域采集信号；其中，第m通道在时刻n采集的时域采集信号为ym(n)，第m通道对应的时频域采集信号为ym(l,k)；l为时频域的帧索引，k为时频域的频率索引，且1≤k≤k，1≤l≤l；k为短时傅里叶变换的点数，l为短时傅里叶变换后的帧数。

8、作为上述方法的一种改进，所述步骤2)具体包括：

9、步骤201)计算当前l帧瞬时语音信号能量估计值其中，l为时频域的帧索引，k为时频域的频率索引；

10、步骤202)利用当前l帧瞬时语音信号能量估计值与历史l-1帧语音信号能量估计值初步估计当前l帧的语音信号能量，以获得语音信号能量初步估计值

11、作为上述方法的一种改进，所述步骤201)具体包括：

12、计算当前l帧瞬时语音信号能量估计值

13、

14、其中，l为时频域的帧索引，k为时频域的频率索引；上标h代表共轭转置，为hgsc(l-1,k)的共轭转置，hgsc(l-1,k)为l-1帧的广义旁瓣消除器对应的波束形成器向量；

15、y(l,k)为多通道的时频域采集信号，其中，

16、y(l,k)＝[y1(l,k),...,ym(l,k)]t；

17、y1(l,k)为第1个传声器采集的带噪音的时频域信号，ym(l,k)为第m个传声器采集的带噪音的时频域信号，上标t代表向量转置；

18、步骤202)具体包括：利用当前l帧瞬时语音信号能量估计值与历史l-1帧语音信号能量估计值初步估计语音信号能量，以获得的语音信号能量初步估计值

19、

20、其中，α为能量的平滑因子。

21、作为上述方法的一种改进，所述步骤3)具体包括：

22、步骤301)计算当前l帧的阻塞矩阵输出信号的协方差矩阵ψ(l,k)：

23、

24、其中，γ是遗忘因子，ψ(l-1,k)是l-1时刻的阻塞矩阵输出信号的协方差矩阵，是语音信号能量初步估计值，u(l,k)是当前l帧的阻塞矩阵的输出信号，上标h为向量转置，uh(l,k)是u(l,k)的向量转置；

25、计算当前l帧的阻塞矩阵输出信号与固定波束形成器滤本文档来自技高网...

【技术保护点】

1.一种基于语音信号先验概率特性的语音信号增强方法，包括以下步骤：

2.根据权利要求1所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求1所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤2)具体包括：

4.根据权利要求3所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤201)具体包括：

5.根据权利要求3所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤3)具体包括：

6.一种基于语音信号先验概率特性的语音信号增强系统，其特征在于，所述系统包括：

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于语音信号先验概率特性的语音信号增强方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现所述处理器执行如

...

【技术特征摘要】

1.一种基于语音信号先验概率特性的语音信号增强方法，包括以下步骤：

2.根据权利要求1所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求1所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤2)具体包括：

4.根据权利要求3所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤201)具体包括：

5.根据权利要求3所述的基于语音信号先验概率特性的语音信号增强方法，其特征在于，所述步骤3)具体包括...

【专利技术属性】
技术研发人员：王劲夫，郭剑锋，杨飞然，孙国华，杨军，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人