一种基于卷积神经网络的多说话人语音分离方法技术

技术编号：22945351 阅读：36 留言：0更新日期：2019-12-27 17:18

本发明专利技术公开一种基于卷积神经网络的多说话人语音分离方法，包括以下步骤：S1：构建基于卷积神经网络的语音分离模型，所述模型包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；S2：使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间；S3：使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作，将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度，得到每个源的时频掩膜。

A multi speaker speech separation method based on convolutional neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的多说话人语音分离方法
本专利技术属于语音分离
，尤其涉及一种基于卷积神经网络的多说话人语音分离方法。
技术介绍
在深度吸引子网络(DeepAttractorNetwork，DANet)中，在训练阶段，DANet通过双向长短时记忆网络将语谱图中的时频单元映射到高维空间中，通过每个时频单元的真实划分计算出每个源的吸引子并通过计算每个吸引子与各个时频单元的距离得到每个源的时频掩膜。在测试阶段，吸引子由K-means算法得到。由于在测试阶段吸引子的计算方式不同，因此产生了中心不匹配问题(Centermismatchproblem)。
技术实现思路
本专利技术提供一种基于卷积神经网络的多说话人语音分离方法，旨在解决上述存在的问题。本专利技术是这样实现的，一种基于卷积神经网络的多说话人语音分离方法，包括以下步骤：S1：构建基于可分离门控卷积神经网络，所述神经网络包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；S2：使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间；S3：使用吸引子估计网络估计每个声源的吸引子，通过在高维空间计算每个吸引子与各个时频点的相似度，计算得到每个源的时频掩膜。进一步的，所述语音分离方法使用多个可分离一维卷积块将语谱图的时频单元映射到一个高维空间。进一步的，所述语音分离方法使用一维门控卷...

【技术保护点】
1.一种基于卷积神经网络的多说话人语音分离方法，其特征在于，包括以下步骤：/nS1：构建基于可分离门控卷积神经网络的语音分离模型，所述模型包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；/nS2：使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间；/nS3：使用吸引子估计网络估计每个声源的吸引子，通过在高维空间计算每个吸引子与各个时频点的相似度，计算得到每个源的时频掩膜。/n

【技术特征摘要】
1.一种基于卷积神经网络的多说话人语音分离方法，其特征在于，包括以下步骤：
S1：构建基于可分离门控卷积神经网络的语音分离模型，所述模型包括嵌入生成网络和吸引子估计网络；所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间，所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子；
S2：使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间；
S3：使用吸引子估计网络估计每个声源的吸引子，通过在高维空间计算每个吸引子与各个时频点的相似度，计算得到每个源的时频掩膜。<...

【专利技术属性】
技术研发人员：蓝天，钱宇欣，李萌，刘峤，彭川，吕忆蓝，李森，惠国强，叶文政，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人