基于深度学习的语音分离方法技术

技术编号:21915827 阅读:22 留言:0更新日期:2019-08-21 12:59
本发明专利技术揭示了一种基于深度学习的语音分离方法,首先是将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理,之后进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位,然后再将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;接着将归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;最后将归一化处理后测试集信号通过训练模型预测,并完成语音分离;本发明专利技术将幅度与相位联合训练,在真实环境下语音分离效果更佳;另外,本发明专利技术采用深度神经网络的adam算法,使信噪比与语音的可懂度得到大幅度提高。

A Speech Separation Method Based on Deep Learning

【技术实现步骤摘要】
基于深度学习的语音分离方法
本专利技术涉及一种语音分离方法,尤其涉及一种基于深度学习的语音分离方法,属于语音信号处理

技术介绍
现实生活中存在着各式各样的噪音,人们感兴趣的声音往往都是纯净的声音,然而现实中很难有完全纯净的声音,人们感兴趣的声音中都或多或少地夹杂着噪音,这些噪音降低了语音可懂度和信噪比,然而怎样进行语音分离,从而提高可懂度并且降低信噪比,成为一个非常关键的问题。语音分离问题最早来源于Cherry在1953年提出的著名的鸡尾酒会问题,鸡尾酒会问题是一个在计算机和通信方面的语音识别和分离领域的交叉问题。目前,语音识别技术对于降噪问题已经有了很大的进展,能基本完全实现一个人的语音声音降噪,然而,面对两人或者多人同时讲话的时候,如何将语音进行分离,仍然是一个比较困难的问题。语音分离任务可根据干扰的不同分为三类:当干扰部分是噪声信号时,它可以被称为“语音增强”;当干扰部分是其他扬声器时,它可以被称为“扬声器分离”;当干扰部分是目标说话人自己的声音的反射波时,它可以被称为“去混响”。由于麦克风收集的声音可能包括噪声,其他人的语音,混响等的声音,如果语音未被分离和直接识别,则识别的准确性可能受到影响。因此,将语音分离技术添加到语音识别的前端可以通过将目标说话者的语音与其他干扰分离来提高语音识别系统的鲁棒性,这也是现代语音识别系统中不可或缺的部分。目前解决语音分离问题的方法分为两类,即无监督的语音分离和有监督的语音分离。有监督的语音分离又称为基于深度学习的语音分离,由于近些年计算机CPU和GPU性能的提高和发展,有监督的语音分离可以利用大数据量进行训练,得到比无监督的语音分离更好的效果;而且在前人研究中可以发现,大多数人实验过程中都是忽略相位的影响,大多默认测试相位,只对幅值进行训练,且分离效果并不好。综上所述,如何采用深度学习的语音分离方法且可提高语音分离效果,就成为本领域技术人员亟待解决的问题。
技术实现思路
本专利技术的目的是为了解决现有技术的上述缺陷,提出基于深度学习的相位与幅度联合训练的语音分离方法,使得分离得到的语音信号性能较好。本专利技术的技术解决方案是:S1:将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理;然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位;之后,分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;S2:将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;S3:将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值;接着,将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出,完成语音分离。优选地,所述训练集信号包括混合训练集信号与纯净训练集信号,所述测试集信号包括混合测试集信号与纯净测试集信号。优选地,所述训练集信号与测试集信号的占比为97:3。优选地,所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。优选地,所述步骤S11中的预处理包括分帧、及叠加汉明窗。优选地,所述汉明窗的长度为256。优选地,所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合。优选地,所述动量梯度下降算法的计算公式为:W=W-αdW,b=b-αdb,vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db其中,α为学习率,β1为指数加权值;所述RMSprop算法的计算公式为:SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2,则,优选地,所述深度神经网络的adam算法为:首先,进行初始化,vdW=0,SdW=0,vdb=0,sdb=0;然后,根据所述动量梯度下降算法,计算指数加权平均值:vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db;之后,所述通过RMSprop算法的计算公式计算RMSprop值:SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2;接着,将指数加权平均值及RMSprop值进行偏差修正:最后,更新权重,得出:优选地,所述训练模型包括输入层、第一隐藏层、第二隐藏层及输出层,所述第一隐藏层与所述第二隐藏层均设置有1024个节点,所述输入层与所述输出层均设置有256个节点,且输出层维度为的矩阵。本专利技术提供了一种基于深度学习的语音分离方法,其优点主要体现在:本专利技术将幅度与相位联合训练,比传统忽略相位的方法,在真实环境下语音分离效果更佳;另外,本专利技术采用深度神经网络的adam算法,即将动量梯度下降算法与RMSprop算法相结合,并对指数加权平均值及RMSprop值进行偏差修正,使信噪比与语音的可懂度得到大幅度提高。以下便结合实施例附图,对本专利技术的具体实施方式作进一步的详述,以使本专利技术技术方案更易于理解、掌握。附图说明图1为基于深度学习的语音分离方法流程图;图2为训练模型的结构示意图。具体实施方式基于深度学习的语音分离方法,如图1所示,包括如下步骤:S1:将含有多个语音的信号进行训练前处理;即将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理,预处理包括分帧、及叠加汉明窗,且汉明窗的长度为256;在本实施例中,训练集信号包括混合训练集信号Strain与纯净训练集信号Mtrain,所述测试集信号包括混合测试集信号Stest与纯净测试集信号Mtest,将混合训练集信号Strain,混合测试集信号Stest,纯净训练集信号Mtrain及纯净测试集信号Mtest经过分帧、及叠加汉明窗处理后得到四个矩阵分别为Strain_frame、Stest_frame、Mtrain_frame及Mtest_frame。在本专利技术中,训练集信号与测试集信号的占比为97:3,其中,训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度,假设混合信号与纯净信号的长度均为l,则训练集信号的长度为测试集信号的长度为其中符号为向下取整,所以训练集信号加汉明窗之后的矩阵维度为测试集信号加汉明窗之后的矩阵维度为然后,将均进行预处理后的训练集信号Strain_frame与Mtrain_frame、与测试集信号Stest_frame与Mtest_frame分别进行傅里叶变换后得到混合训练集信号Strain_fft的幅度和相位、纯净训练集信号Mtrain_fft的幅度和相位、混合测试集信号Stest_fft的幅度和相位、及纯净测试集信号Mtest_fft的幅度和相位;之后,分别将混合训练集信号Strain_fft的幅度和相位、纯净训练集信号Mtrain_fft的幅度和相位、混合测试集信号Stest_fft的幅度和相位、及纯净测试集信号Mtest_fft的幅度和相位均进行归一化处理得到混合训练集信号的幅度Strain_range与相位Strain_phase、混合测试集信号的幅度Stest_range与相位Stest_phase、纯净训练集信号的幅度Mtrain_range与相位Mtrain_phase本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的语音分离方法,其特征在于,包括如下步骤:S1:将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理;然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位;之后,分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;S2:将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;S3:将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值;接着,将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出,完成语音分离。

【技术特征摘要】
1.一种基于深度学习的语音分离方法,其特征在于,包括如下步骤:S1:将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理;然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位;之后,分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;S2:将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;S3:将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值;接着,将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出,完成语音分离。2.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练集信号包括混合训练集信号与纯净训练集信号,所述测试集信号包括混合测试集信号与纯净测试集信号。3.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练集信号与测试集信号的占比为97:3。4.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。5.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述步骤S11中的预处理包括分帧、及叠加汉明窗。6.根据权利要求5所述的基于深度学习的语音分离方法,其特征在于:所述汉明窗的长度为...

【专利技术属性】
技术研发人员:孙林慧陶泽
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1