一种语音分离方法及装置制造方法及图纸

技术编号：24097383 阅读：34 留言：0更新日期：2020-05-09 11:04

本发明专利技术公开了一种语音分离方法及装置，包括：获取混合语音信号；对混合语音信号进行预处理，提取出混合语音信号的幅度谱x

A speech separation method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种语音分离方法及装置
本专利技术涉及信号处理
，尤其涉及一种语音分离方法及装置。
技术介绍
目前，在人们的通信交流或者留言中由于身处的环境不同，在通信的过程中难免会掺杂着噪声，基于上述问题如今开发了语音分离技术，语音分离又称鸡尾酒会问题，目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成：首先将包括混合语音和纯净语音的数据划分为训练集、验证集和测试集，然后使用训练集训练语音分离模型，使用验证集来确定分离模型，最后在测试集上测试分离效果。目前基于深度学习的语音分离方法，一般使用均方误差作为分离模型的训练指标，使用声源失真比等作为分离效果的评价测试指标，但由于分离模型过于单一而导致部分语音无法有效的进行分离，从而无法实现完整的语音分离。
技术实现思路
针对上述所显示出来的问题，本方法利用分离网络来生成训练数据进而训练一个优化网络，使用优化网络和分离网络进行二次训练来提升语音分离效果。一种语音分离方法，包括以下步骤：获取混合语音信号；对所述混...

【技术保护点】
1.一种语音分离方法，其特征在于，包括以下步骤：/n获取混合语音信号；/n对所述混合语音信号进行预处理，提取出所述混合语音信号的幅度谱x

【技术特征摘要】
1.一种语音分离方法，其特征在于，包括以下步骤：
获取混合语音信号；
对所述混合语音信号进行预处理，提取出所述混合语音信号的幅度谱xt以训练分离网络；
利用所述分离网络生成训练数据；
利用所述训练数据训练优化网络Q；
利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。

2.根据权利要求1所述语音分离方法，其特征在于，所述对混合语音信号进行预处理，提取出所述混合语音信号的幅度谱xt以预先训练分离网络，包括：
对所述混合语音信号进行预设时长傅里叶变换，得到所述幅度谱xt；
将所述幅度谱xt进行归一化处理后传输给神经网络；
定义S()为分离网络，输入所述幅度谱xt，通过所述神经网络对所述幅度谱xt提取语音特征，输出预测的掩蔽值，进而得到所述掩蔽值的幅度谱S(xt)；
通过最小化均方误差lmse(s(xt),yt)训练所述分离网络，其中所述lmse()为均方误差函数，所述yt表示说话人纯净语音的幅度谱。

3.根据权利要求1所述语音分离方法，其特征在于，所述利用分离网络生成所述训练数据，包括：
调用预先训练好的分离模型ht；
利用多个混合语音信号的幅度谱组成训练集；
通过所述训练集获取序列H＝{h1，h2，......hn}，其中，所述h1，h2，......hn为在所述混合语音信号里出现的其他幅度谱；
计算所述序列H对应的SDR得分q(H)，获取所述优化网络Q的训练样本({xt,s(xt)},q(H))。

4.根据权利要求3所述语音分离方法，其特征在于，所述利用训练数据训练所述优化网络Q，包括：
获取预设数量的所述训练样本({xt,s(xt)},q(H))作为训练数据；
使用均方误差函数利用所述训练数据训练所述优化网络Q；
其中，所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量，然后将所述xt和所述S(xt)进行拼接，通过多层感知机预测最终q(H)。

5.根据权利要求4所述语音分离方法，其特征在于，所述利用分离网络和训练好的优化网络Q对所述分离网络进行再次训练，包括：
利用下列公式将所述优化网络Q整合到语音分离的损失函数中：

其中，所述lmse()为均方误差函数，所述Qtarget为期望的评价指标值，所述Q(xt,s(xt))为当前的评价值。

6.一种语音分离装置，其特征在于，该装置包括...

【专利技术属性】
技术研发人员：刘广灿，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人