一种语音分离方法及装置制造方法及图纸

技术编号:24097383 阅读:18 留言:0更新日期:2020-05-09 11:04
本发明专利技术公开了一种语音分离方法及装置,包括:获取混合语音信号;对混合语音信号进行预处理,提取出混合语音信号的幅度谱x

A speech separation method and device

【技术实现步骤摘要】
一种语音分离方法及装置
本专利技术涉及信号处理
,尤其涉及一种语音分离方法及装置。
技术介绍
目前,在人们的通信交流或者留言中由于身处的环境不同,在通信的过程中难免会掺杂着噪声,基于上述问题如今开发了语音分离技术,语音分离又称鸡尾酒会问题,目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成:首先将包括混合语音和纯净语音的数据划分为训练集、验证集和测试集,然后使用训练集训练语音分离模型,使用验证集来确定分离模型,最后在测试集上测试分离效果。目前基于深度学习的语音分离方法,一般使用均方误差作为分离模型的训练指标,使用声源失真比等作为分离效果的评价测试指标,但由于分离模型过于单一而导致部分语音无法有效的进行分离,从而无法实现完整的语音分离。
技术实现思路
针对上述所显示出来的问题,本方法利用分离网络来生成训练数据进而训练一个优化网络,使用优化网络和分离网络进行二次训练来提升语音分离效果。一种语音分离方法,包括以下步骤:获取混合语音信号;对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;利用所述分离网络生成训练数据;利用所述训练数据训练优化网络Q;利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。优选的,所述对混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以预先训练分离网络,包括:对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt;<br>将所述幅度谱xt进行归一化处理后传输给神经网络;定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);通过最小化均方误差lmse(s(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。优选的,所述利用分离网络生成所述训练数据,包括:调用预先训练好的分离模型ht;利用多个混合语音信号的幅度谱组成训练集;通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,s(xt)},q(H))。优选的,所述利用训练数据训练所述优化网络Q,包括:获取预设数量的所述训练样本({xt,s(xt)},q(H))作为训练数据;使用均方误差函数利用所述训练数据训练所述优化网络Q;其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H)。优选的,所述利用分离网络和训练好的优化网络Q对所述分离网络进行再次训练,包括:利用下列公式将所述优化网络Q整合到语音分离的损失函数中:其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,s(xt))为当前的评价值。一种语音分离装置,该装置包括:获取模块,用于获取混合语音信号;提取模块,用于对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;生成模块,用于利用所述分离网络生成训练数据;第一训练模块,用于利用所述训练数据训练优化网络Q;第二训练模块,用于利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。优选的,所述提取模块,包括:转换子模块,用于对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt;处理子模块,用于将所述幅度谱xt进行归一化处理后传输给神经网络;提取子模块,用于定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);第一训练子模块,用于通过最小化均方误差lmse(s(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。优选的,所述生成模块,包括:调用子模块,用于调用预先训练好的分离模型ht;组成子模块,用于利用多个混合语音信号的幅度谱组成训练集;第一获取子模块,用于通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;计算子模块,用于计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,s(xt)},q(H))。优选的,所述第一训练模块,包括:第二获取子模块,用于获取预设数量的所述训练样本({xt,s(xt)},q(H))作为训练数据;第二训练子模块,用于使用均方误差函数利用所述训练数据训练所述优化网络Q;其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H)。优选的,所述第二训练模块,包括:整合模块,用于利用下列公式将所述优化网络Q整合到语音分离的损失函数中:其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,s(xt))为当前的评价值。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术所提供的一种语音分离方法的工作流程图;图2为本专利技术所提供的一种语音分离方法的另一工作流程图;图3为本专利技术所提供的一种语音分离方法的工作流程截图;图4为本专利技术所提供的一种语音分离装置的结构图;图5为本专利技术所提供的一种语音分离装置的另一结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本领域技术人员应当理解的是,本专利技术中的第一、第二指的是不同应用阶段而已。目前,在人们的通信交流或者留言中由于身处的环境不同,在通信的过程中难免会掺杂着噪声,基于上述问题如今开发了语音分离技术,语音分离又称鸡尾酒会问题,目标是估计出混合语音中的每一个信号源。现有的基于深度学习的语音分离方法主要由以下步骤构成:首先将包本文档来自技高网...

【技术保护点】
1.一种语音分离方法,其特征在于,包括以下步骤:/n获取混合语音信号;/n对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱x

【技术特征摘要】
1.一种语音分离方法,其特征在于,包括以下步骤:
获取混合语音信号;
对所述混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以训练分离网络;
利用所述分离网络生成训练数据;
利用所述训练数据训练优化网络Q;
利用所述分离网络和训练好的优化网络Q对所述分离网络进行再次训练。


2.根据权利要求1所述语音分离方法,其特征在于,所述对混合语音信号进行预处理,提取出所述混合语音信号的幅度谱xt以预先训练分离网络,包括:
对所述混合语音信号进行预设时长傅里叶变换,得到所述幅度谱xt;
将所述幅度谱xt进行归一化处理后传输给神经网络;
定义S()为分离网络,输入所述幅度谱xt,通过所述神经网络对所述幅度谱xt提取语音特征,输出预测的掩蔽值,进而得到所述掩蔽值的幅度谱S(xt);
通过最小化均方误差lmse(s(xt),yt)训练所述分离网络,其中所述lmse()为均方误差函数,所述yt表示说话人纯净语音的幅度谱。


3.根据权利要求1所述语音分离方法,其特征在于,所述利用分离网络生成所述训练数据,包括:
调用预先训练好的分离模型ht;
利用多个混合语音信号的幅度谱组成训练集;
通过所述训练集获取序列H={h1,h2,......hn},其中,所述h1,h2,......hn为在所述混合语音信号里出现的其他幅度谱;
计算所述序列H对应的SDR得分q(H),获取所述优化网络Q的训练样本({xt,s(xt)},q(H))。


4.根据权利要求3所述语音分离方法,其特征在于,所述利用训练数据训练所述优化网络Q,包括:
获取预设数量的所述训练样本({xt,s(xt)},q(H))作为训练数据;
使用均方误差函数利用所述训练数据训练所述优化网络Q;
其中,所述优化网络Q使用卷积神经网络将所述xt和所述S(xt)表示为向量,然后将所述xt和所述S(xt)进行拼接,通过多层感知机预测最终q(H)。


5.根据权利要求4所述语音分离方法,其特征在于,所述利用分离网络和训练好的优化网络Q对所述分离网络进行再次训练,包括:
利用下列公式将所述优化网络Q整合到语音分离的损失函数中:



其中,所述lmse()为均方误差函数,所述Qtarget为期望的评价指标值,所述Q(xt,s(xt))为当前的评价值。


6.一种语音分离装置,其特征在于,该装置包括...

【专利技术属性】
技术研发人员:刘广灿
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1