一种说话人无关单通道语音分离方法技术

技术编号:25402078 阅读:26 留言:0更新日期:2020-08-25 23:06
本发明专利技术公开了一种说话人无关单通道语音分离方法,包括以下步骤:准备数据集,进行数据预处理;建立基于复数理想浮值掩蔽的单声道语音分离模型;对所述的单声道语音分离模型进行训练时采用语句级置换不变性训练;将混合语音数据输入训练完毕的模型进行语音分离。本发明专利技术提出的基于语句级置换不变性训练和复数理想浮值掩蔽的说话人无关单通道语音分离方法,所述方法通过语句级置换不变训练有效而准确地实现了复数理想浮值掩蔽估计,方法中采用了双向长短期记忆神经网络结构估计复数理想浮值掩蔽,并进一步利用语句级置换不变训练的标准解决标签模糊的问题,从而使得单声道语音分离具有较好的效果。

【技术实现步骤摘要】
一种说话人无关单通道语音分离方法
本专利技术属于智能语音处理
,具体涉及一种基于语句级置换不变性训练和复数理想浮值掩蔽的说话人无关单通道语音分离。
技术介绍
语音源分离任务的目标是从包含两个或多个语音源的混合语音信号中提取出多个语音源信号,每个说话者对应其中一个语音源信号。通常,根据麦克风或通道的数量,可以将语音分离问题分为单声道(即单通道)和基于阵列的(即多通道)源分离问题。对于前一个问题,主流研究方法是从目标语音和干扰信号的声学特性和统计特性出发,提取目标语音,或者从混合信号中去除干扰信号。在多通道语音分离问题中,除了信号的声学和统计特性之外,空间信息也是可用的。所以单声道语音分离问题仍然非常具有挑战性,因为只有一个语音记录可用并且可提取的空间信息十分有限。自二十世纪九十年代以来,研究者已经开发出许多方法来解决单声道语音分离问题。在进入深度学习时代之前,经典的单通道语音分离方法可以分为三类:基于模型的方法,盲源分离(BSS)方法和计算听觉场景分析(CASA)方法。但是,这些方法在处理真实环境中捕获的多源混合语音中的声源时,其效果有限。因为存在众多困难,包括混合语音中多种多样的噪声、低信噪比环境以及有限的计算资源。因此,在真实环境中,很难通过上述方法始终如一地获得高质量的目标语音信号。最近,研究者们采用深度神经网络(DNN)中的回归模型来解决源分离问题,尤其是对于单声道情况,取得了很好的性能增益。根据训练目标,基于DNN的单声道源分离方法可以分为三类,即基于掩蔽的方法,基于映射的方法和基于信号近似(SA)的方法。相比之下,与基于映射的方法相比,基于掩蔽的方法可以训练得到更准确的神经网络模型。在有监督语音分离方法中,首先得到应用的基于掩蔽的训练目标是理想二值掩蔽(IBM),该方法是受到声音的掩蔽效应和听觉场景分析中的专有分配原理的启发而提出的。许多研究人员将IBM作为训练目标,并获得了较好的语音分离结果。由于IBM方法在每个时频域(time-frequency,T-F)单元取值非0即1的这种决策方式不够灵活,因此基于IBM的方法分离得到的语音信号会失真。为此,研究者提出了理想浮值掩蔽(IRM)来优化IBM的性能,将T-F单元的取值设定为目标声源的能量与混合语音的能量之比。与IBM相比,使用基于IRM的方法分离得到的目标语音信号通常具有更好的质量。尽管这些基于DNN的方法获得了不错的性能,但是IBM和IRM在分离和合成干净语音信号时都仅仅使用了目标信号的幅度信息,因为在前期的研究中,人们认为相位谱对于语音分离并不重要。然而近来Erdogan等人的研究发现,相位信息对于预测准确的掩蔽和信号估计是有益的,他们提出了基于相敏掩蔽(PSM)的方法,该方法明显优于IBM和IRM。另外,Williamson等人在复数域中同时利用幅度谱和相位谱信息来估计复数理想浮值掩蔽(cIRM)在语音分离任务中,如果在训练数据和测试数据中,目标说话人和干扰者都不能更改,则属于说话人相关语音分离;如果固定了目标说话人,但允许干扰者进行更改,则属于目标相关语音分离。同理,如果在训练数据和测试数据之间不要求说话人相同,则称为说话者无关语音分离,这是约束最少的情况。标签模糊性(或置换)问题是在前期研究中导致说话人无关语音分离算法性能不佳的最主要原因。在说话人无关的场景中,由于语音分离模型具有多个输出,其中每个输出代表一个声源。当一段语音中有多个说话者数次发声,并且存在多次语音重叠的情况时,因此如何分配分离好的语音成分给各个声源是个棘手的问题,研究者们提出了置换不变训练(PIT)模型来解决这个问题,并取得了很好的效果。
技术实现思路
有鉴于此,本专利技术目的在于提供一种基于语句级置换不变性训练(uPIT)和复数理想浮值掩蔽(cIRM)的说话人无关单通道语音分离方法,所述方法通过语句级置换不变训练(uPIT)有效而准确地实现了cIRM估计,具体而言,所述的说话人无关单通道语音分离方法采用了双向长短期记忆神经网络(Bi-directionalLongShort-TermMemory,Bi-LSTMRNN)结构来估计复数理想浮值掩蔽cIRM,并进一步利用语句级置换不变训练(uPIT)的标准解决标签模糊的问题。为达到该目的,本专利技术采用如下技术方案,一种说话人无关单通道语音分离方法,包括以下步骤:步骤1,准备数据集,进行数据预处理;步骤2,建立基于复数理想浮值掩蔽的单声道语音分离模型;步骤3,对所述的单声道语音分离模型进行训练时采用语句级置换不变性训练;步骤4,将混合语音输入训练完毕的模型进行语音分离。具体地,步骤1中所述的数据集为WSJ0-2mix数据集,所述的WSJ0-2mix数据集包括训练集、验证集和测试集,是通过从WSJ0训练集si_tr_s中随机选择两位说话人,从该两位说话人的录音中随机选择语句进行混合得到的,混合时两个语句的信噪比从范围是0dB-5dB,具体信噪比值为随机选择,所有的语音数据都通过短时傅里叶变换的预处理得到129维复数谱。具体地,所述的单声道语音分离模型以Y形的双向长短期记忆循环神经网络为框架模型,包含3层,每个隐层的神经元节点数为896,当数据流从较低层传递进入较高层网络时,模型设置随机dropout,dropout概率为0.5,对|S|个说话人的混合语音进行分离时,网络模型的输出流有|S|个,为了避免梯度消失问题,数据被依次导入有|S|×1792个神经元的线性层和有|S|×1792个神经元的ReLU层,模型的输入数据是三维张量,形状为D×T×129,D表示一次训练所选取的样本数,每次用于训练的样本数是固定的;T表示每次训练时包含的训练语句中最大的帧数,129是频点数,是语音数据进行短时傅里叶变换得到的129维复数谱,其中,帧长为16ms,帧移为8ms,模型的输出由|S|个掩蔽估计值组成,每个掩蔽估计值向量的维度是T×129。具体地,步骤3中所述的模型进行训练的过程中,训练目标是复数理想浮值掩蔽,其包含实部和虚部,所述的双向长短期记忆循环神经网络有两个输出,一个用于预测实部分量,另一个用于预测虚部分量,预测实部分量和虚部分量的两个网络是分开进行优化的。在训练阶段,对干净源语音和混合语音进行短时傅里叶变换,然后,将变换之后语音源的实部和虚部分别用于计算压缩的实部掩蔽cIRM′r和压缩的虚部掩蔽cIRM′c作为双向长短期记忆循环神经网络中实部和虚部的训练标签,在每次迭代时,通过最小化标签值与双向长短期记忆循环神经网络输出值之间的均方误差来优化时频掩蔽的估计值,多次迭代之后,将均方误差缩小到某个范围或者触发其他设定时停止训练,训练完成,保存此时双向长短期记忆循环神经网络的参数,在测试阶段使用;在模型测试阶段,同样获得混合语音的短时傅里叶变换结果,然后将其作为在训练阶段得到的网络模型的输入,使用逆函数对网络模型的两个输出值进行恢复处理,从而分别得到目标源语音的实部掩蔽和虚部掩码的估计值,通过将实部掩蔽和虚部掩蔽估计值乘以混合语音的短时傅立叶本文档来自技高网
...

【技术保护点】
1.一种说话人无关单通道语音分离方法,其特征在于,包括以下步骤:/n步骤1,准备数据集,进行数据预处理;/n步骤2,建立基于复数理想浮值掩蔽的单声道语音分离模型;/n步骤3,对所述的单声道语音分离模型进行训练时采用语句级置换不变性训练;/n步骤4,将混合语音输入训练完毕的模型进行语音分离。/n

【技术特征摘要】
1.一种说话人无关单通道语音分离方法,其特征在于,包括以下步骤:
步骤1,准备数据集,进行数据预处理;
步骤2,建立基于复数理想浮值掩蔽的单声道语音分离模型;
步骤3,对所述的单声道语音分离模型进行训练时采用语句级置换不变性训练;
步骤4,将混合语音输入训练完毕的模型进行语音分离。


2.根据权利要求1所述的说话人无关单通道语音分离方法,其特征在于,步骤1中所述的数据集为WSJ0-2mix数据集,所述的WSJ0-2mix数据集包括训练集、验证集和测试集,是通过从WSJ0训练集si_tr_s中随机选择两位说话人,从该两位说话人的录音中随机选择语句进行混合得到的,混合时两个语句的信噪比从范围是0dB-5dB,具体信噪比值为随机选择,所有的语音数据都通过短时傅里叶变换的预处理得到129维复数谱。


3.根据权利要求2所述的说话人无关单通道语音分离方法,其特征在于,所述的单声道语音分离模型以Y形的双向长短期记忆循环神经网络为框架模型,包含3层,每个隐层的神经元节点数为896,当数据流从较低层传递进入较高层网络时,模型设置随机dropout,dropout概率为0.5,对|S|个说话人的混合语音进行分离时,网络模型的输出流有|S|个,为了避免梯度消失问题,数据被依次导入有|S|×1792个神经元的线性层和有|S|×1792个神经元的ReLU层,模型的输入数据是三维张量,形状为D×T×129,D表示一次训练所选取的样本数,每次用于训练的样本数是固定的;T表示每次训练时包含的训练语句中最大的帧数,129是频点数,是语音数据进行短时傅里叶变换得到的129维复数谱,其中,帧长为16ms,帧移为8ms,模型的输出由|S|个掩蔽估计值组成,每个掩蔽估计值向量的维度是T×129。


4.根据权利要求3所述的说话人无关单通道语音分离方法,其特征在于,步骤3中所述的模型进行训练的过程中,训练目标是复数理想浮值掩蔽,其包含实部和虚部,所述的双向长短期记忆循环神经网络有两个输出,一个用于预测实部分量,另一个用于预测虚部分量,预测实部分量和虚部分量的两个网络是分开进行优化的。


5.根据权利要求4所述的说话人无关单通道语音分离方法,其特征在于,在模型训练阶段,对干净源语音和混合语音进行短时傅里叶变换,然后,将变换之后语音源的实部和虚部分别用于计算压缩的实部掩蔽cIRM′r和压缩的虚部掩蔽cIRM′c作为双向长短期记忆循环神经网络中实部和虚部的训练标签,在每次迭代时,通过最小化标签值与双向长短期记忆循环神经网络...

【专利技术属性】
技术研发人员:张文宋君强任开军李小勇邓科峰周翱隆汪祥任小丽邵成成吴国溧
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1