基于并改进的深度聚类语音分离方法技术

技术编号:24012964 阅读:46 留言:0更新日期:2020-05-02 02:22
本发明专利技术涉及一种基于并改进的深度聚类语音分离方法,其中,包括:步骤一:混合实验数据,提取对数功率谱特征;步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量v

Deep clustering speech separation method based on and improved

【技术实现步骤摘要】
基于并改进的深度聚类语音分离方法
本专利技术涉及语音分离
,特别涉及一种基于并改进的深度聚类语音分离方法。
技术介绍
“鸡尾酒会问题”在语音分离任务上一直是一个难题,主要因为这个问题属于一个说话人无关的语音分离问题,对于说话人事先不知道其先验信息。通过参考Jonathan等人提出的基于理想二值掩蔽的深度聚类方法(deep-clustering),本专利技术在其基础上将聚类方法进行了改进,使用双向长短时记忆网络模型和均值漂移聚类,并在TIMIT语音数据集下进行了实验。最终分离效果显示,在低输入信噪比情况下,分离效果较之前模型有提高。语音分离一词最初源于“鸡尾酒会问题”,是指从混合的说话人声音中得到想要的目标说话人(一人或多人)的语音信号。在复杂的声音环境下,除了目标说话人的声音以外,通常还伴有其他人的说话声音,干扰人的语音信号会严重影响目标说话人的语音识别性能,这时候便需要语音分离技术来跟踪目标语音并且抑制干扰,从而进一步通过一系列的方法得到想要的语音信息。目前随着深度学习领域的迅速发展,以深度神经网络(DNN)为代表的深度模型也逐渐被用来解决语音分离问题。将IBM作为分离目标的深度模型是将混合语音信号进行大量训练得出混合信号到时频掩蔽值的一个映射,从而进一步从混合信号中分离出我们想要的目标信号。这类方法在已知说话人先验信息的情况下,通过已知语音训练得出的结果会有较高的准确率,但是在未知说话人先验信息即说话人无关情况下的语音分离问题上效果并不理想。JonathanLeRoux等人提出了一种以IBM作为分离目标通过深度聚类的方法来解决说话人无关语音分离问题,这种方法可以将语音特征映射到一个新的嵌入子空间中,然后通过聚类算法得出时频掩蔽目标,最终通过计算得出目标语音信息,从而也实现了端到端的深度网络训练模型与无监督的聚类模型相结合。但是这种方法在低信噪比情况下分离效果并不算理想,因此提高深度聚类方法在低输入信躁比情况下的语音分离效果非常有必要。
技术实现思路
本专利技术的目的在于提供一种基于并改进的深度聚类语音分离方法,用于解决上述现有技术的问题。本专利技术一种基于并改进的深度聚类语音分离方法,其中,包括:步骤一:混合实验数据,提取对数功率谱特征;步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;步骤四:波形重构,恢复语音信号。根据本专利技术的基于并改进的深度聚类语音分离方法的一实施例,其中,步骤一包括:将原始的说话人语音数据按采样频率SR=8000Hz采样;按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集;提取混合语音对数功率谱特征。根据本专利技术的基于并改进的深度聚类语音分离方法的一实施例,其中,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。根据本专利技术的基于并改进的深度聚类语音分离方法的一实施例,其中,步骤二具体包括:采用BLSTM网络来训练混合说话人语音信息,在BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层;首先将输入信号的复数频率谱的特征向量定义为:Xi=Xt,f,i∈{1,...,N};其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式;通过BLSTM网络训练得出:V=fθ(X)其中V表示嵌入空间向量。根据本专利技术的基于并改进的深度聚类语音分离方法的一实施例,其中,将步骤三所得到的分离后的语音的特征估计,通过傅里叶逆变换重构时域波形信号,最终得到分离后的语音信号。本专利技术改进当前基于深度聚类的语音分离方法,使其在低信噪比混合语音输入的情况下效果得到提升。附图说明图1为深度聚类模型示意图;图2为BLSTM网络模型示意图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。图1为深度聚类模型示意图;图2为BLSTM网络模型示意图,如图1以及图2所示,本专利技术提出了一种改进的深度聚类语音分离方法。由于人类在听觉感知的过程中存在掩蔽效应,能量较弱的信号会被能量较高的信号所掩蔽。根据这一效应,我们可以把理想二值掩蔽作为一个估计目标,在低输入信躁比的情况下,使大量混合说话人语音通过双向长短时记忆网络模型训练后再进行均值漂移聚类得出这个目标并且把它作为参数与混合语音通过计算得出分离后的语音即我们想要的语音。具体流程如下:步骤一:混合实验数据,提取对数功率谱特征将原始的说话人语音数据按采样频率SR=8000Hz采样按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集。提取混合语音对数功率谱特征,计算对数功率谱时的帧长为256个点,帧移为64个点,所计算出的特征维度为129。步骤二:搭建改进的深度聚类语音分离模型并用训练集进行模型训练在本专利技术中,采用BLSTM网络来训练混合说话人语音信息,网络模型如图2所示,在该BLSTM网络中,前向和后向LSTM网络分别包含300个神经元,整个网络由两个双向长短时记忆网络和两个前馈层组成,最终通过simoid函数连接到输出层。由于输入的WAV文件通过一系列变换取对数,得到音频的对数功率谱,它是一个关于音频的时频信息特征,将这一特征通过训练网络可以将每个时频特征的时频单元(TF-bin)结合它的前后相关信息映射到一个新的特征子空间上,生成频谱嵌入向量(SpectrogramEmbeddings),通过网络可以使模型学习输入特征映射到到嵌入向量的过程,在这个新的子空间中属于同一说话人的时频单元距离更小,这样这些嵌入向量便可以更好地聚类到一起,为下一步的聚类过程提供便利性。首先将输入信号的复数频率谱的特征向量定义为:Xi=Xt,f,i∈{1,...,N}其中,t和f分别表示信号的帧和频率的索引值,为了估计时频谱上的分割结果,选取一种使得嵌入后的结果在新的空间上和目标最接近的方式通过BLSTM网络训练得出:V=fθ(X)其中V表示嵌入空间向量步骤三:将嵌入空间向量通过meanshift聚类得出掩蔽值并计算出分离信号将测试集混合语音通过步骤二训练好的模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法将其聚类,将得到的结果作为训练目标理想二值掩蔽值。利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计。本文档来自技高网
...

【技术保护点】
1.一种基于并改进的深度聚类语音分离方法,其特征在于,包括:/n步骤一:混合实验数据,提取对数功率谱特征;/n步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;/n步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量v

【技术特征摘要】
1.一种基于并改进的深度聚类语音分离方法,其特征在于,包括:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:搭建改进的深度聚类语音分离模型,并用训练集进行模型训练;
步骤三:将测试集混合语音通过步骤二训练好的深度聚类语音分离模型得出嵌入空间向量vi,对其在嵌入子空间上通过meanshift聚类方法聚类,将得到的结果作为训练目标理想二值掩蔽值,利用理想二值掩蔽值与输入语音信号特征计算得出分离出的两个语音信号的特征估计;
步骤四:波形重构,恢复语音信号。


2.如权利要求1所述的基于并改进的深度聚类语音分离方法,其特征在于,步骤一包括:
将原始的说话人语音数据按采样频率SR=8000Hz采样;
按照不同的输入信噪比,随机两两混合说话人语音,构成混合说话人语音训练集、验证集和测试集;
提取混合语音对数功率谱特征。


3.如权利要求2所述的基于并改进的深度聚类语音分离方法,其特征在于,计算对数功率谱...

【专利技术属性】
技术研发人员:王昕蒋志翔张杨寇金桥常新旭徐冬冬闫帅赵晓燕
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1