一种基于卷积神经网络的多说话人语音分离方法技术

技术编号:22945351 阅读:36 留言:0更新日期:2019-12-27 17:18
本发明专利技术公开一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:S1:构建基于卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作,将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度,得到每个源的时频掩膜。

A multi speaker speech separation method based on convolutional neural network

【技术实现步骤摘要】
一种基于卷积神经网络的多说话人语音分离方法
本专利技术属于语音分离
,尤其涉及一种基于卷积神经网络的多说话人语音分离方法。
技术介绍
在深度吸引子网络(DeepAttractorNetwork,DANet)中,在训练阶段,DANet通过双向长短时记忆网络将语谱图中的时频单元映射到高维空间中,通过每个时频单元的真实划分计算出每个源的吸引子并通过计算每个吸引子与各个时频单元的距离得到每个源的时频掩膜。在测试阶段,吸引子由K-means算法得到。由于在测试阶段吸引子的计算方式不同,因此产生了中心不匹配问题(Centermismatchproblem)。
技术实现思路
本专利技术提供一种基于卷积神经网络的多说话人语音分离方法,旨在解决上述存在的问题。本专利技术是这样实现的,一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:S1:构建基于可分离门控卷积神经网络,所述神经网络包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。进一步的,所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。进一步的,所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。进一步的,所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。与现有技术相比,本专利技术的有益效果是:解决了中心不匹配问题,相较于原方法计算速度更快,分离效果更好。附图说明图1为本专利技术网络架构示意图;图2为本专利技术中基于EGN的设计卷积块结构图;图3为本专利技术结构示意图;具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例请参阅图1-3,本专利技术提供一种技术方案:一种基于卷积神经网络的多说话人分离方法,包括以下步骤:S1:构建基于可分离门控卷积神经网络,所述神经网络包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。进一步的,所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。进一步的,所述语音分离方法使用一维门控卷积构成的吸引子估计网络在高维嵌入空间直接估计吸引子。进一步的,所述吸引子估计神经网络通过将时间以及频率维度作为卷积操作中的通道维度,在嵌入维度上实现卷积操作,来估计吸引子。本实施方式中,本专利技术使用的神经网络整体结构如图1所示,其中,EGN网络由多个如图2所示的可分离门控卷积块堆叠组成;AEN网络由3层门控一维卷积组成。网络详细参数如表1所示:表1神经网络参数表.k卷积核大小.s步长.d扩张率经神经网络得到吸引子后,由式mi=Softmax(aiV),i=1,2,...,C计算得到每个源的时频掩膜。其中ai是由神经网络得到的多个吸引子中的一个;V为由EGN网络映射得到的嵌入矩阵;C为声源总数。最终将掩膜与语谱图相乘得到分离的语谱图。试验例实验分别使用TIMITtrain数据集以及LibriSpeechtrain-clean-100数据集构建了两个混合两人说话的训练数据集,分别使用TIMITtest数据集以及LibriSpeechtest-clean数据集生成测试数据集。混合信噪比介于0-10dB之间,所有音频数据降采样为8kHz。使用包含256个采样点的hamming窗以及64的帧移的STFT来计算语谱图。本专利技术所公布的网络中的EGN层数根据数据集大小设置为10或20,其余参数设置如表1所示。实验数据如下:本专利技术解决了空间不匹配以及中心不匹配问题,相较于原方法计算速度更快,分离效果更好。以上仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的多说话人语音分离方法,其特征在于,包括以下步骤:/nS1:构建基于可分离门控卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;/nS2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;/nS3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。/n

【技术特征摘要】
1.一种基于卷积神经网络的多说话人语音分离方法,其特征在于,包括以下步骤:
S1:构建基于可分离门控卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;
S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;
S3:使用吸引子估计网络估计每个声源的吸引子,通过在高维空间计算每个吸引子与各个时频点的相似度,计算得到每个源的时频掩膜。<...

【专利技术属性】
技术研发人员:蓝天钱宇欣李萌刘峤彭川吕忆蓝李森惠国强叶文政
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1