当前位置: 首页 > 专利查询>新疆大学专利>正文

基于卷积神经网络和深度聚类的多说话人语音分离方法技术

技术编号:22566739 阅读:169 留言:0更新日期:2019-11-16 12:45
本发明专利技术公开了一种基于卷积神经网络和深度聚类的多说话人语音分离方法,包括:一、训练阶段:将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换;将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练;二、测试阶段:将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入,得到混合频谱中每一个时频单元的高维嵌入向量;用K‑means聚类算法,将向量根据设定的说话人数量分类,再由每个向量对应的时频单元得到每个声源的时频掩蔽矩阵将矩阵分别与混合语音幅度频谱相乘,得到说话人频谱;根据说话人频谱,结合混合语音相位频谱,采用短时傅里叶反变换得到多个分离的语音时域波形信号。

Multi speaker speech separation method based on convolutional neural network and deep clustering

The invention discloses a multi speaker voice separation method based on convolution neural network and deep clustering, which includes: 1. Training stage: frame, windowing and short-time Fourier transform for single channel multi speaker mixed voice and corresponding single speaker voice respectively; take mixed voice amplitude spectrum and single speaker voice amplitude spectrum as input of neural network model Training; 2. Test stage: take the mixed speech amplitude spectrum as the input of the threshold expansion convolution depth clustering model to get the high-dimensional embedding vector of each time-frequency unit in the mixed spectrum; use K \u2011 means clustering algorithm to classify the vector according to the number of speakers set, and then get the time-frequency masking matrix of each sound source from the time-frequency unit corresponding to each vector, respectively, and The mixed speech amplitude spectrum is multiplied to obtain the speaker spectrum; according to the speaker spectrum, combined with the mixed speech phase spectrum, the short-time Fourier inverse transform is used to obtain multiple separated speech time-domain waveform signals.

【技术实现步骤摘要】
基于卷积神经网络和深度聚类的多说话人语音分离方法
本专利技术涉及单声道语音分离领域,尤其涉及一种基于扩张卷积的卷积神经网络和深度聚类的多说话人语音分离方法,可以实现从单声道多说话人混合语音中分离出两个或三个单一说话人语音时域波形。
技术介绍
随着人工智能战略重要性的日益增加,语音作为人机对话的桥梁,强大的语音处理技术必不可少。尽管自动语音识别系统的精度已经超过了许多实际应用的门槛,但要使语音识别系统更加具有鲁棒性以及拥有更广应用范围,有些困难仍有待解决。如鸡尾酒会的问题,即对于多个说话人同时说话或者伴有其他人声的背景噪声,跟踪和识别某指定说话人的语音。尽管人类可以轻易感知声学混合物中的单独源及对应源的声音,但对于计算机来说却是很困难的,特别是当系统只有单通道混合语音信号时。混合信号是复杂听觉场景中所有声音的总和,在鸡尾酒会环境中,混合信号包含了多个说话人的语音和背景噪声。对于“鸡尾酒会”问题,首要挑战是如何将目标源(这里通常指某指定说话人)声音从混合信号中分离出来。人类通常感兴趣并且能够同时集中于一个或两个声源,因此只需要将这些目标声音从混合声源中分离出来。当前的解决方案存在以下问题,首先,语音分离模型依赖于说话人,即已经训练的分离模型不能用于新增说话人的语音分离,即仅用于闭集说话人,不能随着增加的说话人或词汇量而扩展;其次,只能分离信号源是不同类型的混合信号(例如,将噪声与说话人分开),对于信号源是同类型信号的混合信号(诸如多个说话人)则分离效果欠佳;最后,已有源分离模型不能扩展到任意数量的说话人的声音分离,如果用于训练分离模型的样本是两个说话人的混合信号,则该系统模型不能用于三个说话人混合信号的语音分离。
技术实现思路
本专利技术提供了一种基于卷积神经网络和深度聚类的多说话人语音分离方法,本专利技术实现了说话人(声源)无关的语音分离,即使分离的目标说话人语音未经过模型的训练也可以达到较好的语音分离效果,同时,训练后的语音分离模型可以实现两个说话人(声源)的语音分离也可以实现三个说话人(声源)的语音分离。本专利技术提供的技术可用于自动会议和讲座中目标说话人说话识别、自动转录,也可用于人声嘈杂环境下的目标说话人语音识别或语音增强,详见下文描述:一种基于卷积神经网络和深度聚类的多说话人语音分离方法,所述方法包括:一、训练分离网络模型将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换,获取成对的混合语音频谱和单说话人语音频谱,仅保留其中的语音幅度频谱;将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练;二、运用语音分离网络实现单个说话人语音分离将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换,得到混合语音信号的频谱,保留其中的混合语音相位频谱;将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入,得到混合频谱中每一个时频单元的高维嵌入向量;用K-means聚类算法,将高维嵌入向量根据设定的说话人数量分成两到三类,再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵;将时频掩蔽矩阵分别与混合语音幅度频谱相乘,得到每个说话人频谱;根据每个说话人频谱,结合混合语音相位频谱,采用短时傅里叶反变换分别得到多个分离的语音时域波形信号。进一步地,所述门限扩张卷积深度聚类模型包括三个模块,即基于频域扩张卷积的卷积神经网络模块、基于时域扩张卷积的卷积神经网络模块、以及基于门限线性单元的卷积神经网络模块。进一步地,所述基于频域扩张卷积的卷积神经网络模块可同时捕捉时域和频率方向的上下文关系。其中,所述基于时域扩张卷积的卷积神经网络模块采用扩张因子呈指数级递增的一维扩张卷积,仅在时域方向上进行扩张卷积。进一步地,所述方法还包括:通过跳跃连接建立深度残差学习框架,缓解消失梯度问题;将时域扩张卷积和门限线性单元结合到残差块中,通过增加残差块中的中间卷积层的内核大小扩展时域方向上的接收域;用指数线性单元激活函数代替矩形线性单元,以加速收敛和提高泛化性能。在实例应用前,首先,需要根据描述的系统原理搭建神经网络系统;其次,给该系统输入一定数量的输入数据(训练样本)用以训练该语音分离神经网络模型;最后,保存训练好的语音分离神经网络模型(即神经网络参数)。实例应用时,首先,对搭建好的神经网络系统,导入保存的训练好的语音分离神经网络模型;其次,将待分离的混合语音做短时傅里叶变换,得到混合语音幅度频谱和相位频谱;最后,将混合语音幅度频谱送入神经网络,得到神经网络的输出(单个说话人语音幅度频谱的掩蔽矩阵),进一步的单个说话人语音幅度频谱,再结合混合语音相位频谱得到分离出的单个(目标)说话人语音时域波形。多说话人语音分离系统原理:本专利技术采用的语音分离神经网络系统基于卷积神经网络和深度聚类,具体来说,深度聚类方法[1]将混合语音的幅度频谱中每个时频单元映射到高维可分离空间(高维嵌入特征向量空间),使以同一声源的时频单元的嵌入特征向量相互接近,不同声源所对应的时频单元的嵌入特征向量相距较远。对于测试的混合信号,其频谱时频单元先经过训练好的深度神经网络得到高维嵌入向量输出,再利用标准的聚类算法对高维嵌入向量进行聚类,从而得到每个声源对应时频单元的掩蔽,进一步得到每个声源的幅度频谱,最后通过短时傅里叶反变换得到每个声源的时域波形,基于深度聚类的语音分离系统流程图如图1所示。如上述分离系统流程所述,本专利技术讨论的技术克服了先前标签模糊或标签置换问题的缺陷和局限性。例如,在多语音分离监督性问题的回归框架中,假设混合语音中有两位说话人,需要为相应的输出端提供正确的参考(或目标)值X1和X2作为标签,以便在训练过程中进行有监督地分离训练。有监督地语音分离系统在固定分配标签顺序的条件下,对语音和非语音(如噪声)的分离效果较好,但在鸡尾酒会环境中(多个说话人同时说话)由于说话人标签排列问题,混合语音的分离效果不佳。同时,由于混合语音中存在的多个说话人的语音具有相同的频率分布特性,因此,很难保证系统某通道输出的分离语音与前一时刻该通道的输出是同一个说话人语音。当混合语音中说话人的数量增加时,这个问题就变得更加严重,说话人标签序列问题阻碍了有监督语音分离系统模型用于解决说鸡尾酒会的说话人语音分离问题。同时,本专利技术采用深度聚类方法,这与以前将语音分离视为回归问题的先前解决方案不同,它将语音分离问题转化为分割问题,忽略源的顺序。具体来说,首先假设混合语音幅度频谱中的每一个时频单元只属于一个说话人,在多个说话人语音生成混合信号时,通过判断同一时频单元中多个说话人的能量,则混合语音幅度频谱的对应时频单元就分配给能量最高的说话人。按照说话人来分配混合语音幅度频谱的时频单元,混合语音的频谱图将会分割成簇,每个说话人分为一簇。该框架结构的关键是,在训练过程中,只需知道哪些时频单元属于同一个说话人(或簇),由此避免了标签排列问题。因为聚类是根据时频单元之间的距本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络和深度聚类的多说话人语音分离方法,其特征在于,所述方法包括:/n一、训练分离网络模型/n将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换,获取成对的混合语音频谱和单说话人语音频谱,仅保留其中的语音幅度频谱;/n将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练;/n二、运用语音分离网络实现单个说话人语音分离/n将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换,得到混合语音信号的频谱,保留其中的混合语音相位频谱;/n将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入,得到混合频谱中每一个时频单元的高维嵌入向量;/n用K-means聚类算法,将高维嵌入向量根据设定的说话人数量分成两到三类,再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵;/n将时频掩蔽矩阵分别与混合语音幅度频谱相乘,得到每个说话人频谱;/n根据每个说话人频谱,结合混合语音相位频谱,采用短时傅里叶反变换分别得到多个分离的语音时域波形信号。/n

【技术特征摘要】
1.一种基于卷积神经网络和深度聚类的多说话人语音分离方法,其特征在于,所述方法包括:
一、训练分离网络模型
将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换,获取成对的混合语音频谱和单说话人语音频谱,仅保留其中的语音幅度频谱;
将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练;
二、运用语音分离网络实现单个说话人语音分离
将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换,得到混合语音信号的频谱,保留其中的混合语音相位频谱;
将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入,得到混合频谱中每一个时频单元的高维嵌入向量;
用K-means聚类算法,将高维嵌入向量根据设定的说话人数量分成两到三类,再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵;
将时频掩蔽矩阵分别与混合语音幅度频谱相乘,得到每个说话人频谱;
根据每个说话人频谱,结合混合语音相位频谱,采用短时傅里叶反变换分别得到多个分离的语音时域波形信号。


2.根据权利要求1所述的一种基于卷积神经网络...

【专利技术属性】
技术研发人员:董兴磊胡英黄浩
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1