一种基于长短时记忆网络LSTM的双耳语音分离方法技术

技术编号：23192197 阅读：36 留言：0更新日期：2020-01-24 16:43

本发明专利技术公开了一种基于长短时记忆网络LSTM的双耳语音分离方法。本发明专利技术提取训练双耳语音信号每个时频单元的耳间时间差、耳间强度差以及耳间互相关函数作为分离的空间特征，将相同子带内，当前帧以及前后5帧时频单元的空间特征作为双向LSTM网络的输入参数进行训练，得到基于LSTM的分离模型。测试阶段，将测试双耳语音信号的当前帧以及前后5帧时频单元的空间特征作为训练得到的双向LSTM网络的输入参数，用于估计当前时频单元目标语音的掩蔽值，从而根据掩蔽值进行语音分离。分离结果表明，本发明专利技术提出的基于LSTM网络的双耳分离方法相比于基于深层神经网络的方法在主观评价指标上有较为明显提升，且算法泛化性能好。

A binaural speech separation method based on long and short term memory network LSTM

全部详细技术资料下载

【技术实现步骤摘要】
一种基于长短时记忆网络LSTM的双耳语音分离方法
本专利技术涉及语音分离算法，尤其涉及一种基于长短时记忆网络LSTM的双耳语音分离方法。
技术介绍
语音分离算法是语音信号处理的重要研究方向，也有比较广泛的应用场合，如电话会议系统中，语音分离技术可实现从多个发言人从提取感兴趣的声源，可以提高电话会议的效率；应用于语音识别的前期处理过程可以改善语音的质量，帮助提高识别的正确率；应用于助听装置时，可为听力障碍者提供更加突出目标声源，并提供有效语音信息。语音分离技术所涉领域很广，包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳语音分离利用双耳信号的差异进行分析从而估计声源方位，目前的分离算法根据其分离参数的区别可以分为两类：1、基于耳间差的分离LordRayleigh于1907年在球形人头假设之上，首次提出基于耳间线索差的分离理论，即由于声源与人的双耳位置之间的位置差异，使得双耳接收到的语音信号存在时间和强度差异，即耳间时间差(Inter-auralTimeDifference，ITD)和耳间强度差(Inter-auralIntensityDifference，IID)，这两方面因素差异是双耳语音分离的基础。与ITD、IID相关双耳语音信号的互相关函数(CrossCorrelationFunction，CCF)也是耳间差异参数，但实际环境中由于混响和噪声的干扰，会导致分离效果的下降。2、基于头相关传递函数的分离ITD信息可以判断左、右方位的声源，而不能判别声音是来自前...

【技术保护点】
1.一种基于长短时记忆网络LSTM的双耳语音分离方法，其特征在于，该方法包括以下步骤：/n(1)将两个不同的训练单声道语音信号与不同方位角的与头相关脉冲响应函数HRIR相卷积，生成两个不同方位角的训练单声源双耳语音信号；/n(2)将所述两个不同方位角的训练单声源双耳语音信号进行混合，得到包含两个声源的混合训练双耳语音信号，同时加入不同信噪比的噪声，得到不同声学环境下，包含两个不同方位角声源的含噪混合训练双耳语音信号；/n(3)对步骤(2)得到的含噪混合训练双耳语音信号进行子带滤波、分帧和加窗，得到各个子带分帧后的训练双耳语音信号，即训练双耳语音信号的每个时频单元；/n(4)对步骤(3)得到的训练双耳语音信号的每个时频单元，计算耳间互相关函数CCF、耳间时间差ITD和耳间强度差ILD，作为训练双耳语音信号各个时频单元的空间特征；/n(5)将步骤(4)得到的每个时频单元的空间特征，与本子带内前、后5帧对应时频单元的空间特征一起作为长短时记忆网络LSTM网络的输入，将本时频单元的理想掩蔽比值IRM作为LSTM网络的目标值，训练LSTM网络；/n(6)对不同声学环境下，包含两个不同方位角声源的...

【技术特征摘要】
1.一种基于长短时记忆网络LSTM的双耳语音分离方法，其特征在于，该方法包括以下步骤：
(1)将两个不同的训练单声道语音信号与不同方位角的与头相关脉冲响应函数HRIR相卷积，生成两个不同方位角的训练单声源双耳语音信号；
(2)将所述两个不同方位角的训练单声源双耳语音信号进行混合，得到包含两个声源的混合训练双耳语音信号，同时加入不同信噪比的噪声，得到不同声学环境下，包含两个不同方位角声源的含噪混合训练双耳语音信号；
(3)对步骤(2)得到的含噪混合训练双耳语音信号进行子带滤波、分帧和加窗，得到各个子带分帧后的训练双耳语音信号，即训练双耳语音信号的每个时频单元；
(4)对步骤(3)得到的训练双耳语音信号的每个时频单元，计算耳间互相关函数CCF、耳间时间差ITD和耳间强度差ILD，作为训练双耳语音信号各个时频单元的空间特征；
(5)将步骤(4)得到的每个时频单元的空间特征，与本子带内前、后5帧对应时频单元的空间特征一起作为长短时记忆网络LSTM网络的输入，将本时频单元的理想掩蔽比值IRM作为LSTM网络的目标值，训练LSTM网络；
(6)对不同声学环境下，包含两个不同方位角声源的混合测试双耳语音信号，按照步骤(3)和步骤(4)处理得到测试双耳语音信号各个时频单元的空间特征；
(7)将步骤(6)得到的每个时频单元的空间特征，与本子带内前、后5帧对应时频单元的空间特征一起输入训练好的LSTM网络中，得到每个时频单元的估计掩蔽比值ERM；
(8)根据步骤(7)得到的估计掩蔽比值ERM，将所述混合测试双耳语音信号进行分离，得到单个声源对应的时域语音信号。

2.根据权利要求1所述的基于长短时记忆网络LSTM的双耳语音分离方法，其特征在于：步骤(1)中所述两个不同方位角的单声源双耳语音信号的计算公式为：

其中，s1(n)、s2(n)为两个不同的单声源语音信号，s1,L(n)、s1,R(n)表示方位角1对应的单声源左、右耳语音信号，h1,L、h1,R表示方位角1的左耳HRIR、右耳HRIR，s2,L(n)、s2,R(n)表示方位角2对应的单声源左、右耳语音信号，h2,L、h2,R表示方位角2的左耳HRIR、右耳HRIR，*为卷积运算，n为采样序号。

3.根据权利要求1所述的基于长短时记忆网络LSTM的双耳语音分离方法，其特征在于：步骤(2)所述包含两个声源的混合训练双耳语音信号的计算方法为：
sleft(n)＝s1,L(n)+s2,L(n)
sright(n)＝s1,R(n)+s2,R(n)
其中sleft(n)、sright(n)为包含两个不同方位声源的混合训练双耳语音信号的左、右耳信号，s1,L(n)、s1,R(n)表示方位角1对应的单声源左、右耳语音信号，s2,L(n)、s2,R(n)表示方位角2对应的单声源左、右耳语音信号；
所述含噪混合的训练双耳语音信号的计算方法为：
xleft(n)＝sleft(n)+vL(n)
xright(n)＝sright(n)+vR(n)
其中，xLeft(n)、xRight(n)分别表示包含两个不同方位角声源的含噪混合训练左、右耳语音信号，vL(n)、vR(n)表示不同信噪比下的左、右耳噪声信号，vL(n)、vR(n)不相关。

4.根据权利要求1所述的基于长短时记忆网络LSTM的双耳语音分离方法，其特征在于：步骤(3)所述子带滤波计算方法为：
xL(i,n)＝xleft(n)*gi(n)
xR(i,n)＝xright(n)*gi(n)
其中，xL...

【专利技术属性】
技术研发人员：周琳，陆思源，钟秋月，庄琰，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人