基于深度学习的语音分离方法技术

技术编号：21915827 阅读：22 留言：0更新日期：2019-08-21 12:59

本发明专利技术揭示了一种基于深度学习的语音分离方法，首先是将含有多个语音的信号划分为训练集信号和测试集信号，并将训练集信号与测试集信号分别进行预处理，之后进行傅里叶变换，得到训练集信号的幅度和相位、及测试集信号的幅度和相位，然后再将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理；接着将归一化处理后训练集信号的幅度和相位通过训练模型进行训练，且训练模型的算法采用深度神经网络的adam算法；最后将归一化处理后测试集信号通过训练模型预测，并完成语音分离；本发明专利技术将幅度与相位联合训练，在真实环境下语音分离效果更佳；另外，本发明专利技术采用深度神经网络的adam算法，使信噪比与语音的可懂度得到大幅度提高。

A Speech Separation Method Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的语音分离方法
本专利技术涉及一种语音分离方法，尤其涉及一种基于深度学习的语音分离方法，属于语音信号处理

技术介绍
现实生活中存在着各式各样的噪音，人们感兴趣的声音往往都是纯净的声音，然而现实中很难有完全纯净的声音，人们感兴趣的声音中都或多或少地夹杂着噪音，这些噪音降低了语音可懂度和信噪比，然而怎样进行语音分离，从而提高可懂度并且降低信噪比，成为一个非常关键的问题。语音分离问题最早来源于Cherry在1953年提出的著名的鸡尾酒会问题，鸡尾酒会问题是一个在计算机和通信方面的语音识别和分离领域的交叉问题。目前，语音识别技术对于降噪问题已经有了很大的进展，能基本完全实现一个人的语音声音降噪，然而，面对两人或者多人同时讲话的时候，如何将语音进行分离，仍然是一个比较困难的问题。语音分离任务可根据干扰的不同分为三类：当干扰部分是噪声信号时，它可以被称为“语音增强”；当干扰部分是其他扬声器时，它可以被称为“扬声器分离”；当干扰部分是目标说话人自己的声音的反射波时，它可以被称为“去混响”。由于麦克风收集的声音可能包括噪声，其他人的语音，混响等的声音，如果语音未被分离和直接识别，则识别的准确性可能受到影响。因此，将语音分离技术添加到语音识别的前端可以通过将目标说话者的语音与其他干扰分离来提高语音识别系统的鲁棒性，这也是现代语音识别系统中不可或缺的部分。目前解决语音分离问题的方法分为两类，即无监督的语音分离和有监督的语音分离。有监督的语音分离又称为基于深度学习的语音分离，由于近些年计算机CPU和GPU性能的提高和发展，有监督的语音分离可以利用大数据量进...

【技术保护点】
1.一种基于深度学习的语音分离方法，其特征在于，包括如下步骤：S1：将含有多个语音的信号划分为训练集信号和测试集信号，并将训练集信号与测试集信号分别进行预处理；然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换，得到训练集信号的幅度和相位、及测试集信号的幅度和相位；之后，分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理；S2：将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练，且训练模型的算法采用深度神经网络的adam算法；S3：将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值；接着，将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出，完成语音分离。

【技术特征摘要】
1.一种基于深度学习的语音分离方法，其特征在于，包括如下步骤：S1：将含有多个语音的信号划分为训练集信号和测试集信号，并将训练集信号与测试集信号分别进行预处理；然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换，得到训练集信号的幅度和相位、及测试集信号的幅度和相位；之后，分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理；S2：将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练，且训练模型的算法采用深度神经网络的adam算法；S3：将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值；接着，将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出，完成语音分离。2.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练集信号包括混合训练集信号与纯净训练集信号，所述测试集信号包括混合测试集信号与纯净测试集信号。3.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练集信号与测试集信号的占比为97：3。4.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。5.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述步骤S11中的预处理包括分帧、及叠加汉明窗。6.根据权利要求5所述的基于深度学习的语音分离方法，其特征在于：所述汉明窗的长度为...

【专利技术属性】
技术研发人员：孙林慧，陶泽，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人