一种基于压缩感知空间信息估计的欠定语音分离方法和装置制造方法及图纸

技术编号：40676475 阅读：6 留言：0更新日期：2024-03-18 19:14

本发明专利技术公开了一种基于压缩感知空间信息估计的欠定语音分离方法和装置，属于语音信号前端处理技术领域，包括获取待分离信号并据此构建压缩感知模型；基于压缩感知模型，采用离格稀疏贝叶斯推理方法估计待分离信号中各个说话源的空间信息；基于空间信息计算得到说话源的二值时频掩码；对待分离信号进行非负矩阵分解，得到基矩阵和系数矩阵，基于基矩阵和空间信息计算得到系数矩阵掩码，利用系数矩阵掩码对系数矩阵进行掩码，将掩码后的系数矩阵和基矩阵相乘得到各个说话源的预分离语音；将各个说话源的预分离语音、空间信息和二值时频掩码输入到后分离系统中滤除干扰语音，得到各个说话源的分离语音；本发明专利技术能够提高语音分离的精确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于压缩感知空间信息估计的欠定语音分离方法和装置，属于语音信号前端处理。

技术介绍

1、目前，随着ai的不断发展，人们生活中需要的服务和功能也日益增多，其中，语音分离作为一项基于人工智能的关键技术，已经逐渐成为智能服务的核心技术之一。所谓语音分离，指的是从多个话语者的混合语音中分离出各自的清晰语音，其难度在于，在实际应用中，由于录音环境中的混响、噪音干扰以及语音重叠等因素或者麦克风数量、硬件成本的限制，使语音分离的问题变得极其复杂。

2、在很多场景中，比如远程办公、远程教育、喧闹的环境中通话等，都需要高效的语音分离技术来提升语音交流的质量。语音分离技术可以大大减轻后续语音识别系统的负担，提升语音识别的准确率，具有很大的实际应用价值。在智能家居、车载系统、智能音箱等设备中，语音分离技术的应用可显著提高通信质量，让人工智能设备更精准识别用户语音，将为用户提供更优质的语音交互体验。在一些特定的应用场景中，例如医疗场景下的听力助听器、涉及安全问题的监控系统等，高效的语音分离系统都是必不可少的。对于听障者而言，高效准确的语音分离算法可以帮助他们更好地理解人类语言并提高生活质量。

3、基于深度学习的室内语音分离系统在实际的应用场景中仍然存在应用成本过高、实时性难以保证、分离后的语音容易产生畸变等问题，因此，现阶段，基于机器学习的方法仍然是较稳定、易实现的语音分离方法。在现实的应用场景中，往往会考虑硬件成本和部署难度，导致麦克风数量受到限制。当语音源个数超过麦克风数量时，就会产生欠定的情况，这在现实中

4、而传统的语音分离算法，考虑语音信号w-不相交正交性假设，即在每个时频点处只有一个源占有主导性，因此主要由时频掩码技术进行语音分离。近些年来，加入方向特征进行语音分离能够取得较好的效果，然而，这种方法需要麦克风数量较多的阵列。在麦克风数量受限的欠定情况下，对方向特征的提取会产生较大的影响，进而导致掩码的估计产生较大的偏差，这会很大程度上影响语音分离的性能。同时，在室内的多径效应的影响下，方向信息的估计也会受到影响，导致在实际情况下分离难度增加。此外，传统语音分离中的两步法，即先估计混合矩阵，再根据混合矩阵恢复源信号，在混合矩阵的估计过程中会大量引入零值，导致分离的语音中包含大量的音乐噪声，降低了分离的质量。

技术实现思路

1、本专利技术的目的在于提供一种基于压缩感知空间信息估计的欠定语音分离方法和装置，解决现有技术中存在的分离精确度低的问题。

2、为实现以上目的，本专利技术是采用下述技术方案实现的：

3、第一方面，本专利技术提供了一种基于压缩感知空间信息估计的欠定语音分离方法，包括：

4、获取待分离信号，所述待分离信号是双通道混合语音信号；

5、计算待分离信号的互相关函数，构建互相关函数对应的稀疏基矩阵，根据互相关函数和稀疏基矩阵构建压缩感知模型；

6、基于压缩感知模型，采用离格稀疏贝叶斯推理方法估计所述待分离信号中各个说话源的空间信息；

7、基于所述空间信息计算得到说话源的二值时频掩码；

8、对待分离信号进行非负矩阵分解，得到基矩阵和系数矩阵，基于基矩阵和空间信息计算得到系数矩阵掩码，利用系数矩阵掩码对系数矩阵进行掩码，将掩码后的系数矩阵和基矩阵相乘得到各个说话源的预分离语音；

9、将各个说话源的预分离语音、空间信息和二值时频掩码输入到后分离系统中滤除干扰语音，得到各个说话源的分离语音。

10、结合第一方面，进一步的，所述待分离信号的表达式为：

11、

12、

13、其中，yl(m)表示左通道混合语音信号，yr(m)表示右通道混合语音信号，xk(m)是在参考位置处的第k个说话源的信号，参考位置为左麦克风处，el(m)表示左通道处由房间反射产生的混响效应或环境噪声，er(m)表示右通道处由房间反射产生的混响效应或环境噪声，gk表示第k个说话源在双麦克风间的幅度衰减，τk表示第k个说话源在双麦克风间的到达时间差，m是离散采样时间点，k表示说话源的个数，k>2；

14、在获取待分离信号后还包括将待分离信号由时域转化为频域，待分离信号在频域中的表达式为：

15、

16、

17、yft＝[ylft|yrft]

18、其中，yft表示待分离信号，ylft表示左通道在频点f和时间帧t的复数频域混合信号，yrft表示右通道在频点f和时间帧t的复数频域混合信号，xkft是在每个时频点的复数频域源信号，elft表示左通道处混响效应和环境噪声在时频域的表示，erft是右通道处混响效应和环境噪声在时频域的表示，e是自然常数，j是虚数单位。

19、结合第一方面，进一步的，所述压缩感知模型通过以下公式构建：

20、φ＝acss+ecs

21、其中，s表示压缩感知模型中的稀疏信号，ecs表示服从复高斯分布的加性噪声，φ表示互相关函数，acs表示稀疏基矩阵。

22、结合第一方面，进一步的，所述互相关函数通过以下公式计算：

23、

24、其中，φ表示互相关函数，*表示元素复共轭转置，ylft表示左通道在频点f和时间帧t的复数频域混合信号，yrft表示右通道在频点f和时间帧t的复数频域混合信号；

25、所述稀疏基矩阵通过以下公式构建：

26、

27、其中，acs表示稀疏基矩阵，是稀疏基矩阵中的第1列到第n列，是[-π,π]范围内的第n个固定采样网格，n表示网格数，e是自然常数，j是虚数单位，f1…ff表示第1到第f个频点，f表示频点数。

28、结合第一方面，进一步的，所述基于压缩感知模型，采用离格稀疏贝叶斯推理方法估计所述待分离信号中各个说话源的空间信息，包括：

29、将压缩感知模型中的稀疏基矩阵离格化，得到离格稀疏基矩阵；

30、基于离格稀疏基矩阵更新稀疏信号的均值和方差；

31、基于离格稀疏基矩阵更新稀疏信号的协方差参数、加性噪声方差和离格参数；

32、基于离格参数更新离格稀疏基矩阵；

33、重复迭代上述步骤，直至迭代次数超过预设阈值，得到估计的稀疏信号的均值和方差，根据估计的稀疏信号的均值和方差计算能量谱，在能量谱中进行峰值搜索得到各个说话源的空间信息。

34、结合第一方面，进一步的，所述将压缩感知模型中的稀疏基矩阵离格化，通过以下公式进行：

35、

36、其中，是的一阶导数，θk是第k个说话源的真实doa，是最接近θk的固定采样网格，a(θk)表示离格稀疏基矩阵的第k列；

37、所述基于离格稀疏基矩阵更新稀本文档来自技高网...

【技术保护点】

1.一种基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，包括：

2.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述待分离信号的表达式为：

3.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述压缩感知模型通过以下公式构建：

4.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述互相关函数通过以下公式计算：

5.根据权利要求4所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述基于压缩感知模型，采用离格稀疏贝叶斯推理方法估计所述待分离信号中各个说话源的空间信息，包括：

6.根据权利要求5所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述将压缩感知模型中的稀疏基矩阵离格化，通过以下公式进行：

7.根据权利要求2所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述基于所述空间信息计算得到说话源的二值时频掩码，包括：

8.根据权利要求2所述的基于压缩感知空间信息

9.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述将各个说话源的预分离语音、空间信息和二值时频掩码输入到后分离系统中滤除干扰语音，得到各个说话源的分离语音，包括：

10.一种基于压缩感知空间信息估计的欠定语音分离转置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，包括：

2.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述待分离信号的表达式为：

3.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述压缩感知模型通过以下公式构建：

4.根据权利要求1所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述互相关函数通过以下公式计算：

6.根据权利要求5所述的基于压缩感知空间信息估计的欠定语音分离方法，其特征在于，所述将压缩感知模型中的稀疏基矩阵离...

【专利技术属性】
技术研发人员：魏爽，张睿，
申请(专利权)人：上海师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人