【技术实现步骤摘要】
一种语音分离方法及装置
本专利技术涉及信号处理
,尤其涉及一种语音分离方法及装置。
技术介绍
目前,在人们的通信交流或者留言中由于身处的环境不同,在通信的过程中难免会掺杂着噪声,基于上述问题如今开发了语音分离技术,语音分离又称鸡尾酒会问题,目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成:首先将包括混合语音和纯净语音的数据划分为训练集、验证集和测试集,然后使用训练集训练语音分离模型,使用验证集来确定分离模型,最后在测试集上测试分离效果。目前基于深度学习的语音分离方法,一般使用均方误差作为分离模型的训练指标,使用声源失真比等作为分离效果的评价测试指标,但由于分离模型过于单一而导致部分语音无法有效的进行分离,从而无法实现完整的语音分离。
技术实现思路
针对上述所显示出来的问题,本方法利用分离网络来生成训练数据进而训练一个优化网络,使用优化网络和分离网络进行二次训练来提升语音分离效果。一种语音分离方法,包括以下步骤:获取混合语音信号;对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;利用所述分离网络生成训练数据;利用所述训练数据训练优化网络Q;利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。优选的,所述对混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以预先训练分离网络,包括:对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt;< ...
【技术保护点】
1.一种语音分离方法,其特征在于,包括以下步骤:/n获取混合语音信号;/n对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱x
【技术特征摘要】
1.一种语音分离方法,其特征在于,包括以下步骤:
获取混合语音信号;
对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;
利用所述分离网络生成训练数据;
利用所述训练数据训练优化网络Q;
利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。
2.根据权利要求1所述语音分离方法,其特征在于,所述对混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以预先训练分离网络,包括:
对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt;
将所述幅度谱xt进行归一化处理后传输给神经网络;
定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);
通过最小化均方误差lmse(s(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。
3.根据权利要求1所述语音分离方法,其特征在于,所述利用分离网络生成所述训练数据,包括:
调用预先训练好的分离模型ht;
利用多个混合语音信号的幅度谱组成训练集;
通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;
计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,s(xt)},q(H))。
4.根据权利要求3所述语音分离方法,其特征在于,所述利用训练数据训练所述优化网络Q,包括:
获取预设数量的所述训练样本({xt,s(xt)},q(H))作为训练数据;
使用均方误差函数利用所述训练数据训练所述优化网络Q;
其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H)。
5.根据权利要求4所述语音分离方法,其特征在于,所述利用分离网络和训练好的优化网络Q对所述分离网络进行再次训练,包括:
利用下列公式将所述优化网络Q整合到语音分离的损失函数中:
其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,s(xt))为当前的评价值。
6.一种语音分离装置,其特征在于,该装置包括...
【专利技术属性】
技术研发人员:刘广灿,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。