基于强约束字典和深度神经网络的两阶段单通道语音分离方法技术

技术编号:34528274 阅读:12 留言:0更新日期:2022-08-13 21:20
本发明专利技术公开了一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法。首先,基于字典学习的语音分离方法常出现“交叉投影”问题,本发明专利技术提出了强约束的优化函数,在此函数约束下构建更具有区分性的联合字典,来减少“交叉投影”。其次,为了提高两个相似信号的分离效果,本发明专利技术提出两阶段单通道语音分离方法,第一阶段利用强约束字典实现语音分离,得到初步估计信号。第二阶段利用映射能力强的深度神经网络,通过联合约束实现语音与交叉投影残余的分离,去除交叉投影残余的影响,得到精细估计信号。本发明专利技术实现了对语音分离系统性能的提升,使系统分离出的语音在五种测量指标上均有提升,适用于智能人机交互。适用于智能人机交互。适用于智能人机交互。

【技术实现步骤摘要】
基于强约束字典和深度神经网络的两阶段单通道语音分离方法


[0001]本专利技术属于语音分离
,具体涉及一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法。

技术介绍

[0002]日常生活中涉及到语音分离技术的产品越来越多,如手机、助听器、智能家居控制系统、军用对讲机等,随着通信技术的快速发展,人们对这些产品的语音质量有了更高的追求。如何从被干扰的语音中最大限度地获取纯净语音信号或将干扰信号的影响最小化是语音分离领域的研究重点内容之一。国内外众多学者对语音分离问题进行研究,提出了许多不同的方法。早期的传统信号处理方法有谱减法和维纳滤波器,这些方法通常适用于连续平稳的高信噪比环境。在此基础上提出的基于模型的方法根据源信号和混合过程构建模型,以数学推导的方式推算得到估计的源信号,如基于隐马尔科夫模型和高斯混合模型的方法都取得不错的效果。另外,NMF方法通过建立混合信号到目标信号的线性映射,也广泛应用于语音分离领域,但是信号结构复杂时并不能很好地表达。
[0003]基于字典的信号稀疏表示方法也常用来解决语音分离问题,信号稀疏表示就是用尽可能少的过完备字典原子来表示信号,学者们主要在字典构造方法和信号稀疏分解算法方面进行重点研究。Aharon等人最早提出了K

SVD算法,在该算法基础上一些学者通过增加字典约束条件来优化分离性能。Sigg等人利用干净语音信号和干扰信号分别训练得到语音字典和干扰字典,将两个字典拼接成联合字典进行稀疏编码,从混合语音分离纯净语音取得了较好的性能。Zhang等人研究了语音信号间的关联和字典间的交叉干扰,提出了一种将语音字典和干扰字典联合学习的语音增强方法,能减少源失真和混淆,提高语音质量,且在输入信噪比较低时增强效果更为明显。Tian等人提出了一种基于学习字典的源分离方法,将公共子字典合并到常规的联合字典中,以确保特定源的子字典能捕获对应源的判别信息,并且设计了一种任务驱动学习算法来优化所提出的联合字典和用于分配公共信息的权重,实验结果表明该算法可以获得比传统算法更好的分离性能。
[0004]近年来,深度学习技术凭借其强大的学习能力在语音分离领域日益突出。基于深度学习的语音分离通过训练学习混合信号与目标信号之间的非线性映射关系,这种方法不需要大量的先验知识,而且在低信噪比或非平稳信号环境下仍然有不错的泛化能力。Geoffrey Hinton教授对传统的神经网络算法进行了优化,最早提出了深度神经网络的概念。Han等人提出了通过训练DNN从受损语音的幅度谱中学习干净语音的幅度谱,达到去混响和去噪的目的。在训练DNN时,不同的训练目标会影响网络模型的分离效果,Wang等人分析比较了常用的训练目标包括IBM和IRM等的增强效果,整体上掩蔽技术取得了较好的效果。Li等人提出了一种频谱变化感知损失函数的DNN语音分离算法,结果表明所提出的损失函数能提高语音清晰度和信噪比增益。我们团队提出的联合约束算法不仅惩罚残差平方和,而且利用输出之间的联合关系来训练双输出DNN,与基本损失函数相比该方法能获得更
好的性能。

技术实现思路

[0005]本专利技术所要解决的技术问题是克服现有技术的不足,提供一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法,第一阶段进行初步估计,利用强约束字典学习实现语音与语音的分离,获取信号的粗略估计。第二阶段进行精细估计,利用映射能力强的DNN对第一阶段分离重构信号进行增强,通过联合约束实现语音与交叉投影残余的分离,使得最终估计的信号与目标信号更接近,从而提高分离语音的质量。
[0006]本专利技术提供一种基于强约束字典和深度神经网络的两阶段单通道语音分离方法,包括如下步骤,
[0007]步骤S1.提取干净语音信号和混合语音信号的幅度谱,利用K

SVD算法计算干净语音信号的子字典D1和D2,将子字典拼接成联合字典D=[D1,D2],在强约束的优化函数限制下迭代更新字典;
[0008]步骤S2.将另一份训练样本在字典D上投影获取混合信号在D上的稀疏编码矩阵C=[C1,C2]T
,重构获取第一阶段分离出的语音信号幅度谱和
[0009]步骤S3.和经过DNN获取估计的理想比率掩码M1和M2,将掩码分别与和进行哈达玛积获取第二阶段精细估计的幅度谱和幅度谱和混合信号的相位相乘恢复出语音信号。
[0010]作为本专利技术的进一步技术方案,步骤S1的具体步骤为,
[0011]步骤S11.对每一句输入的时域连续语音信号进行采样,再进行短时傅里叶变换获取预处理后的语音信号;
[0012]步骤S12.计算预处理后的语音信号的幅度谱S1和S2,基于K

SVD算法分别训练获取对应的身份子字典D1和D2,拼接D1和D2获取初始联合字典D=[D1,D2];
[0013]步骤S13.固定D,通过OMP算法在目标函数约束下求得混合信号Y在D上的稀疏编码矩阵C;
[0014]步骤S14.固定C,通过L

BFGS算法求强约束优化函数来更新字典,获取强约束优化后的字典。
[0015]更进一步的,步骤S14中,通过L

BFGS算法求强约束优化函数来更新字典的具体方法为,
[0016]步骤S141.定义强约束优化函数为
[0017][0018]其中,和分别为单个干净信号S1和S2在联合字典D
上投影的稀疏编码矩阵,和为和中在自身子字典上的投影部分;
[0019]步骤S142.定义矩阵步骤S142.定义矩阵和其中I为单位矩阵,O为全零矩阵;
[0020]步骤S143.强约束优化函数改写为
[0021][0022]目标函数的梯度函数为
[0023][0024]步骤S144.经过多次迭代求解获取更新后的优化字典,使混合信号在该字典上投影时能区分不同的源信号。
[0025]进一步的,步骤S2的具体步骤为,
[0026]步骤S21.混合信号在字典D上投影得到估计的稀疏编码矩阵
[0027]步骤S22.根据重构得到第一阶段分离出的语音信号幅度谱和
[0028]进一步的,步骤S3的具体步骤为,
[0029]步骤S31.构建DNN网络框架,包含一个输入层、三个隐藏层和一个输出层;
[0030]步骤S32.目标语音的理想比率掩码作为DNN网络的训练目标,定义联合约束损失函数对网络进行约束;
[0031]步骤S33.将第一阶段分离出的语音信号幅度谱和输入DNN网络中,输出估计的理想比率掩码M1和M2;
[0032]步骤S34.M1和M2分别与和进行哈达玛积获取第二阶段精细估计的幅度谱和
[0033]步骤S35.和与混合信号的相位相乘恢复出目标语音信号。
[0034]更进一步的,步骤S32中,定义联合约束损失函数对网络进行约束的具体步骤为,
[0035]步骤S321.考虑掩码误差的损失函数为其中,和M
i...

【技术保护点】

【技术特征摘要】
1.基于强约束字典和深度神经网络的两阶段单通道语音分离方法,其特征在于,包括如下步骤,步骤S1.提取干净语音信号和混合语音信号的幅度谱,利用K

SVD算法计算干净语音信号的子字典D1和D2,将子字典拼接成联合字典D=[D1,D2],在强约束的优化函数限制下迭代更新字典;步骤S2.将另一份训练样本在字典D上投影获取混合信号在D上的稀疏编码矩阵C=[C1,C2]
T
,重构获取第一阶段分离出的语音信号幅度谱和步骤S3.和经过DNN获取估计的理想比率掩码M1和M2,将掩码分别与和进行哈达玛积获取第二阶段精细估计的幅度谱和幅度谱和混合信号的相位相乘恢复出语音信号。2.根据权利要求1所述的基于强约束字典和深度神经网络的两阶段单通道语音分离方法,其特征在于,所述步骤S1的具体步骤为,步骤S11.对每一句输入的时域连续语音信号进行采样,再进行短时傅里叶变换获取预处理后的语音信号;步骤S12.计算预处理后的语音信号的幅度谱S1和S2,基于K

SVD算法分别训练获取对应的身份子字典D1和D2,拼接D1和D2获取初始联合字典D=[D1,D2];步骤S13.固定D,通过OMP算法在目标函数约束下求得混合信号Y在D上的稀疏编码矩阵C;步骤S14.固定C,通过L

BFGS算法求强约束优化函数来更新字典,获取强约束优化后的字典。3.根据权利要求2所述的基于强约束字典和深度神经网络的两阶段单通道语音分离方法,其特征在于,所述步骤S14中,通过L

BFGS算法求强约束优化函数来更新字典的具体方法为,步骤S141.定义强约束优化函数为其中,和分别为单个干净信号S1和S2在联合字典D上投影的稀疏编码矩阵,和为和中在自身子字典上的投影部分;步骤S142.定义矩阵步骤S142.定义矩阵和其中I为单位矩阵,O为全零矩阵;
步骤S143.强约束优化函数改写为目标函数的梯度函数为步骤S144.经过多次迭代求解获取更新后的优化字典,使混合信号在该字典上投影时能区分不同的源信号。4.根据权利要求1所述的基于强约束字典和深度神经网络的两阶段单通道语音分离方法,其特征在于,所述步骤S2的具体步骤为,...

【专利技术属性】
技术研发人员:孙林慧龚艾飞袁硕步云怡
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1