The invention discloses a multi speaker voice separation method based on convolution neural network and deep clustering, which includes: 1. Training stage: frame, windowing and short-time Fourier transform for single channel multi speaker mixed voice and corresponding single speaker voice respectively; take mixed voice amplitude spectrum and single speaker voice amplitude spectrum as input of neural network model Training; 2. Test stage: take the mixed speech amplitude spectrum as the input of the threshold expansion convolution depth clustering model to get the high-dimensional embedding vector of each time-frequency unit in the mixed spectrum; use K \u2011 means clustering algorithm to classify the vector according to the number of speakers set, and then get the time-frequency masking matrix of each sound source from the time-frequency unit corresponding to each vector, respectively, and The mixed speech amplitude spectrum is multiplied to obtain the speaker spectrum; according to the speaker spectrum, combined with the mixed speech phase spectrum, the short-time Fourier inverse transform is used to obtain multiple separated speech time-domain waveform signals.
【技术实现步骤摘要】
基于卷积神经网络和深度聚类的多说话人语音分离方法
本专利技术涉及单声道语音分离领域,尤其涉及一种基于扩张卷积的卷积神经网络和深度聚类的多说话人语音分离方法,可以实现从单声道多说话人混合语音中分离出两个或三个单一说话人语音时域波形。
技术介绍
随着人工智能战略重要性的日益增加,语音作为人机对话的桥梁,强大的语音处理技术必不可少。尽管自动语音识别系统的精度已经超过了许多实际应用的门槛,但要使语音识别系统更加具有鲁棒性以及拥有更广应用范围,有些困难仍有待解决。如鸡尾酒会的问题,即对于多个说话人同时说话或者伴有其他人声的背景噪声,跟踪和识别某指定说话人的语音。尽管人类可以轻易感知声学混合物中的单独源及对应源的声音,但对于计算机来说却是很困难的,特别是当系统只有单通道混合语音信号时。混合信号是复杂听觉场景中所有声音的总和,在鸡尾酒会环境中,混合信号包含了多个说话人的语音和背景噪声。对于“鸡尾酒会”问题,首要挑战是如何将目标源(这里通常指某指定说话人)声音从混合信号中分离出来。人类通常感兴趣并且能够同时集中于一个或两个声源,因此只需要将这些目标声音从混合声源中分离出来。当前的解决方案存在以下问题,首先,语音分离模型依赖于说话人,即已经训练的分离模型不能用于新增说话人的语音分离,即仅用于闭集说话人,不能随着增加的说话人或词汇量而扩展;其次,只能分离信号源是不同类型的混合信号(例如,将噪声与说话人分开),对于信号源是同类型信号的混合信号(诸如多个说话人)则分离效果欠佳;最后,已有源分离模型不能扩展到任意数量的说话人的 ...
【技术保护点】
1.一种基于卷积神经网络和深度聚类的多说话人语音分离方法,其特征在于,所述方法包括:/n一、训练分离网络模型/n将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换,获取成对的混合语音频谱和单说话人语音频谱,仅保留其中的语音幅度频谱;/n将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练;/n二、运用语音分离网络实现单个说话人语音分离/n将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换,得到混合语音信号的频谱,保留其中的混合语音相位频谱;/n将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入,得到混合频谱中每一个时频单元的高维嵌入向量;/n用K-means聚类算法,将高维嵌入向量根据设定的说话人数量分成两到三类,再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵;/n将时频掩蔽矩阵分别与混合语音幅度频谱相乘,得到每个说话人频谱;/n根据每个说话人频谱,结合混合语音相位频谱,采用短时傅里叶反变换分别得到多个分离的语音时域波形信号。/n
【技术特征摘要】
1.一种基于卷积神经网络和深度聚类的多说话人语音分离方法,其特征在于,所述方法包括:
一、训练分离网络模型
将单通道多说话人混合语音和对应的单说话人语音分别进行分帧、加窗、短时傅里叶变换,获取成对的混合语音频谱和单说话人语音频谱,仅保留其中的语音幅度频谱;
将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训练;
二、运用语音分离网络实现单个说话人语音分离
将单通道多说话人混合语音信号进行分帧、加窗、短时傅里叶变换,得到混合语音信号的频谱,保留其中的混合语音相位频谱;
将混合语音幅度频谱作为门限扩张卷积深度聚类模型的输入,得到混合频谱中每一个时频单元的高维嵌入向量;
用K-means聚类算法,将高维嵌入向量根据设定的说话人数量分成两到三类,再由每一个高维嵌入向量对应的时频单元分别得到每个声源的时频掩蔽矩阵;
将时频掩蔽矩阵分别与混合语音幅度频谱相乘,得到每个说话人频谱;
根据每个说话人频谱,结合混合语音相位频谱,采用短时傅里叶反变换分别得到多个分离的语音时域波形信号。
2.根据权利要求1所述的一种基于卷积神经网络...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。