当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于长短时记忆网络LSTM的双耳语音分离方法技术

技术编号:23192197 阅读:36 留言:0更新日期:2020-01-24 16:43
本发明专利技术公开了一种基于长短时记忆网络LSTM的双耳语音分离方法。本发明专利技术提取训练双耳语音信号每个时频单元的耳间时间差、耳间强度差以及耳间互相关函数作为分离的空间特征,将相同子带内,当前帧以及前后5帧时频单元的空间特征作为双向LSTM网络的输入参数进行训练,得到基于LSTM的分离模型。测试阶段,将测试双耳语音信号的当前帧以及前后5帧时频单元的空间特征作为训练得到的双向LSTM网络的输入参数,用于估计当前时频单元目标语音的掩蔽值,从而根据掩蔽值进行语音分离。分离结果表明,本发明专利技术提出的基于LSTM网络的双耳分离方法相比于基于深层神经网络的方法在主观评价指标上有较为明显提升,且算法泛化性能好。

A binaural speech separation method based on long and short term memory network LSTM

【技术实现步骤摘要】
一种基于长短时记忆网络LSTM的双耳语音分离方法
本专利技术涉及语音分离算法,尤其涉及一种基于长短时记忆网络LSTM的双耳语音分离方法。
技术介绍
语音分离算法是语音信号处理的重要研究方向,也有比较广泛的应用场合,如电话会议系统中,语音分离技术可实现从多个发言人从提取感兴趣的声源,可以提高电话会议的效率;应用于语音识别的前期处理过程可以改善语音的质量,帮助提高识别的正确率;应用于助听装置时,可为听力障碍者提供更加突出目标声源,并提供有效语音信息。语音分离技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳语音分离利用双耳信号的差异进行分析从而估计声源方位,目前的分离算法根据其分离参数的区别可以分为两类:1、基于耳间差的分离LordRayleigh于1907年在球形人头假设之上,首次提出基于耳间线索差的分离理论,即由于声源与人的双耳位置之间的位置差异,使得双耳接收到的语音信号存在时间和强度差异,即耳间时间差(Inter-auralTimeDifference,ITD)和耳间强度差(Inter-auralIntensityDifference,IID),这两方面因素差异是双耳语音分离的基础。与ITD、IID相关双耳语音信号的互相关函数(CrossCorrelationFunction,CCF)也是耳间差异参数,但实际环境中由于混响和噪声的干扰,会导致分离效果的下降。2、基于头相关传递函数的分离ITD信息可以判断左、右方位的声源,而不能判别声音是来自前方还是后方,也不能分离仰角位置。但是基于与头相关传递函数(Head-RelatedTransferFunction,HRTF)的方法对语音的分离就不再局限于水平面及前向语音,可以实现对三维空间声源的分离,该方法利用HRTF数据库设计逆滤波器,通过逆滤波之后的双耳信号计算互相关值,据此来分离语音。此类方法解决了三维空间语音分离问题,但是计算复杂度过大,并且与头相关传递函数的个体性较强,对不同个体,或者周围环境有所差异(即存在不同噪声或混响情况下)时,可能导致实际传递函数与分离模型中使用的函数不一致,进而影响分离的效果。3、基于深度神经网络DNN的分离该方法将理想掩蔽比值IRM应用到多说话人分离问题中,通过方位角进行建模,将前向19个方位角的声源以及环境噪声提取改进的IRM值,作为神经网络的训练目标。在训练阶段首先对双耳语音信号进行预处理,将混合语音信号通过Gammatone滤波器组并进行分帧加窗,得到各个时频单元,提取时频单元的空间特征输入到DNN神经网络中进行训练。测试阶段,将提取的混合语音的时频空间特征送入训练完成的DNN中,DNN的输出结果即为估计掩蔽比值ERM。该分离方法具有很高的鲁棒性,在各种语音评价指标上相比于传统算法均有明显提升,但该方法没有利用到语音信号特征参数的时序相关特性。
技术实现思路
专利技术目的:针对以往双耳语音分离算法在高噪声和强混响条件下,性能急剧下降的问题,本专利技术提出了一种长短时记忆网络LSTM的双耳语音分离方法,该方法采用LSTM网络对多环境下的特征参数进行训练。仿真测试结果表明,基于长短时记忆网络LSTM的双耳语音分离算法分离效果有显著提高。技术方案:本专利技术所述的基于长短时记忆网络LSTM的双耳语音分离方法包括以下步骤:(1)将两个不同的训练单声道语音信号与不同方位角的与头相关脉冲响应函数HRIR相卷积,生成两个不同方位角的训练单声源双耳语音信号;(2)将所述两个不同方位角的训练单声源双耳语音信号进行混合,得到包含两个声源的混合训练双耳语音信号,同时加入不同信噪比的噪声,得到不同声学环境下,包含两个不同方位角声源的含噪混合训练双耳语音信号;(3)对步骤(2)得到的含噪混合训练双耳语音信号进行子带滤波、分帧和加窗,得到各个子带分帧后的训练双耳语音信号,即训练双耳语音信号的每个时频单元;(4)对步骤(3)得到的训练双耳语音信号的每个时频单元,计算耳间互相关函数CCF、耳间时间差ITD和耳间强度差ILD,作为训练双耳语音信号各个时频单元的空间特征;(5)将步骤(4)得到的每个时频单元的空间特征参数,与本子带内前、后5帧对应时频单元的空间特征一起作为长短时记忆网络LSTM网络的输入,将本时频单元的理想掩蔽比值IRM作为LSTM网络的目标值,训练LSTM网络;(6)对不同声学环境下,包含两个不同方位角声源的混合测试双耳语音信号,按照步骤(3)和步骤(4)处理得到测试双耳语音信号各个时频单元的空间特征;(7)将步骤(6)得到的每个时频单元的空间特征,与本子带内前、后5帧对应时频单元的空间特征一起输入训练好的LSTM网络中,得到每个时频单元的估计掩蔽比值ERM;(8)根据步骤(7)得到的估计掩蔽比值ERM,将所述混合测试双耳语音信号进行分离,得到单个声源对应的时域语音信号。进一步的,步骤(1)中所述两个不同方位角的单声源双耳语音信号的计算公式为:s1,L(n)=s1(n)*h1,Ls2,L(n)=s2(n)*h2,Ls1,R(n)=s1(n)*h1,R,s2,R(n)=s2(n)*h2,R其中,s1(n)、s2(n)为两个不同的单声源语音信号,s1,L(n)、s1,R(n)表示方位角1对应的单声源左、右耳语音信号,h1,L、h1,R表示方位角1的左耳HRIR、右耳HRIR,s2,L(n)、s2,R(n)表示方位角2对应的单声源左、右耳语音信号,h2,L、h2,R表示方位角2的左耳HRIR、右耳HRIR,*为卷积运算,n为采样序号。进一步的,步骤(2)所述包含两个声源的混合双耳语音信号的计算方法为:sleft(n)=s1,L(n)+s2,L(n)sright(n)=s1,R(n)+s2,R(n)其中sleft(n)、sright(n)为包含两个不同方位声源的混合训练双耳语音信号的左、右耳信号,s1,L(n)、s1,R(n)表示方位角1对应的单声源左、右耳语音信号,s2,L(n)、s2,R(n)表示方位角2对应的单声源左、右耳语音信号;所述含噪混合的训练双耳语音信号的计算方法为:xleft(n)=sleft(n)+vL(n)xright(n)=sright(n)+vR(n)其中,xLeft(n)、xRight(n)分别表示包含两个不同方位角声源的含噪混合训练左、右耳语音信号,vL(n)、vR(n)表示不同信噪比下的左、右耳噪声信号,vL(n)、vR(n)不相关。进一步的,步骤(3)所述子带滤波计算方法为:xL(i,n)=xleft(n)*gi(n)xR(i,n)=xright(n)*gi(n)其中,xLeft(n)、xRight(n)分别表示包含两个不同方位角声源的含噪混合训练左、右耳语音信号,,xL(i,n)、xR(i,n)表示经过子带滤波器后得到的第i个子带的时域信号,gi(n)为第i个子带滤本文档来自技高网
...

【技术保护点】
1.一种基于长短时记忆网络LSTM的双耳语音分离方法,其特征在于,该方法包括以下步骤:/n(1)将两个不同的训练单声道语音信号与不同方位角的与头相关脉冲响应函数HRIR相卷积,生成两个不同方位角的训练单声源双耳语音信号;/n(2)将所述两个不同方位角的训练单声源双耳语音信号进行混合,得到包含两个声源的混合训练双耳语音信号,同时加入不同信噪比的噪声,得到不同声学环境下,包含两个不同方位角声源的含噪混合训练双耳语音信号;/n(3)对步骤(2)得到的含噪混合训练双耳语音信号进行子带滤波、分帧和加窗,得到各个子带分帧后的训练双耳语音信号,即训练双耳语音信号的每个时频单元;/n(4)对步骤(3)得到的训练双耳语音信号的每个时频单元,计算耳间互相关函数CCF、耳间时间差ITD和耳间强度差ILD,作为训练双耳语音信号各个时频单元的空间特征;/n(5)将步骤(4)得到的每个时频单元的空间特征,与本子带内前、后5帧对应时频单元的空间特征一起作为长短时记忆网络LSTM网络的输入,将本时频单元的理想掩蔽比值IRM作为LSTM网络的目标值,训练LSTM网络;/n(6)对不同声学环境下,包含两个不同方位角声源的混合测试双耳语音信号,按照步骤(3)和步骤(4)处理得到测试双耳语音信号各个时频单元的空间特征;/n(7)将步骤(6)得到的每个时频单元的空间特征,与本子带内前、后5帧对应时频单元的空间特征一起输入训练好的LSTM网络中,得到每个时频单元的估计掩蔽比值ERM;/n(8)根据步骤(7)得到的估计掩蔽比值ERM,将所述混合测试双耳语音信号进行分离,得到单个声源对应的时域语音信号。/n...

【技术特征摘要】
1.一种基于长短时记忆网络LSTM的双耳语音分离方法,其特征在于,该方法包括以下步骤:
(1)将两个不同的训练单声道语音信号与不同方位角的与头相关脉冲响应函数HRIR相卷积,生成两个不同方位角的训练单声源双耳语音信号;
(2)将所述两个不同方位角的训练单声源双耳语音信号进行混合,得到包含两个声源的混合训练双耳语音信号,同时加入不同信噪比的噪声,得到不同声学环境下,包含两个不同方位角声源的含噪混合训练双耳语音信号;
(3)对步骤(2)得到的含噪混合训练双耳语音信号进行子带滤波、分帧和加窗,得到各个子带分帧后的训练双耳语音信号,即训练双耳语音信号的每个时频单元;
(4)对步骤(3)得到的训练双耳语音信号的每个时频单元,计算耳间互相关函数CCF、耳间时间差ITD和耳间强度差ILD,作为训练双耳语音信号各个时频单元的空间特征;
(5)将步骤(4)得到的每个时频单元的空间特征,与本子带内前、后5帧对应时频单元的空间特征一起作为长短时记忆网络LSTM网络的输入,将本时频单元的理想掩蔽比值IRM作为LSTM网络的目标值,训练LSTM网络;
(6)对不同声学环境下,包含两个不同方位角声源的混合测试双耳语音信号,按照步骤(3)和步骤(4)处理得到测试双耳语音信号各个时频单元的空间特征;
(7)将步骤(6)得到的每个时频单元的空间特征,与本子带内前、后5帧对应时频单元的空间特征一起输入训练好的LSTM网络中,得到每个时频单元的估计掩蔽比值ERM;
(8)根据步骤(7)得到的估计掩蔽比值ERM,将所述混合测试双耳语音信号进行分离,得到单个声源对应的时域语音信号。


2.根据权利要求1所述的基于长短时记忆网络LSTM的双耳语音分离方法,其特征在于:步骤(1)中所述两个不同方位角的单声源双耳语音信号的计算公式为:



其中,s1(n)、s2(n)为两个不同的单声源语音信号,s1,L(n)、s1,R(n)表示方位角1对应的单声源左、右耳语音信号,h1,L、h1,R表示方位角1的左耳HRIR、右耳HRIR,s2,L(n)、s2,R(n)表示方位角2对应的单声源左、右耳语音信号,h2,L、h2,R表示方位角2的左耳HRIR、右耳HRIR,*为卷积运算,n为采样序号。


3.根据权利要求1所述的基于长短时记忆网络LSTM的双耳语音分离方法,其特征在于:步骤(2)所述包含两个声源的混合训练双耳语音信号的计算方法为:
sleft(n)=s1,L(n)+s2,L(n)
sright(n)=s1,R(n)+s2,R(n)
其中sleft(n)、sright(n)为包含两个不同方位声源的混合训练双耳语音信号的左、右耳信号,s1,L(n)、s1,R(n)表示方位角1对应的单声源左、右耳语音信号,s2,L(n)、s2,R(n)表示方位角2对应的单声源左、右耳语音信号;
所述含噪混合的训练双耳语音信号的计算方法为:
xleft(n)=sleft(n)+vL(n)
xright(n)=sright(n)+vR(n)
其中,xLeft(n)、xRight(n)分别表示包含两个不同方位角声源的含噪混合训练左、右耳语音信号,vL(n)、vR(n)表示不同信噪比下的左、右耳噪声信号,vL(n)、vR(n)不相关。


4.根据权利要求1所述的基于长短时记忆网络LSTM的双耳语音分离方法,其特征在于:步骤(3)所述子带滤波计算方法为:
xL(i,n)=xleft(n)*gi(n)
xR(i,n)=xright(n)*gi(n)
其中,xL...

【专利技术属性】
技术研发人员:周琳陆思源钟秋月庄琰
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1