The invention discloses a multi-speaker speech separation method and system based on beam forming. The method is as follows: collecting mixed speech signals, obtaining multi-channel multi-speaker mixed speech signals and scanning them to obtain MUSIC energy spectrum; obtaining S peaks from the MUSIC energy spectrum, each peak corresponds to a beam direction; enhancing S beams separately to obtain mixed speech in S directions; and performing short-time Fourier transform for mixed speech corresponding to each direction. The short-time Fourier amplitude spectrum of S target speakers'speech is obtained and input into the depth neural network to estimate the corresponding phase-sensing masks of each target speaker. The phase-sensing masks of each target speaker are multiplied with the corresponding mixed speech amplitude spectrum element by element to obtain the target speaker's amplitude spectrum, and the phase spectrum of the corresponding mixed speech is used to communicate. The time domain signal of the target speaker is recovered by over-inverse short-time Fourier transform.
【技术实现步骤摘要】
一种基于波束成形的多说话者语音分离方法及系统
本专利技术属于语音分离
,涉及波束成形和深度神经网络模型,具体涉及一种基于波束成形的语音分离方法及系统。
技术介绍
在一个具有噪声或者多说话人等干扰的复杂声学场景中,拾取出目标说话人的语音一直是语音领域的难题,这个问题被称作“鸡尾酒会问题”。正常人得益于自身听觉上的注意机制,将注意力聚焦在混合声音中的目标声音,从而能在这种复杂环境下进行对话交流。然而对于机器来说,“鸡尾酒会问题”却是一个困难的任务。尽管现在自动语音识别的识别率在干净语音下能够做到接近甚至超过常人,但是在含有多个说话人的语音识别中,自动语音识别的识别率会大幅度的下降。而这首先要解决的一个问题就是多说话人语音的分离。传统的方法比如隐马尔科夫模型(HMM)、非负矩阵分解(NMF)、独立成分分析(ICA)等等方法已经很早被提出来解决多说话人语音分离的问题,但是效果并不是那么理想。最近几年,一种叫做听觉计算场景分析的方法(CASA,ComputationalAuditorySceneAnalysis)被提出来,在语音分离方便取得了不错的效果。CASA模仿人类的听觉感知机理,增强目标声音而抑制其余干扰。与此同时,随着深度学习技术的发展,它已经成功应用到很多领域,尤其是语音领域,比如语音识别、去混响和增强。基于深度学习的有监督的多说话人语音分离的思路主要有两类。一类是深度聚类(DeepClustering)和深度吸引子网络(DeepAttractorNetwork),其主要思想是对混合语音幅度谱图的时频单元进行嵌入(Embedding)训练,将每一个时 ...
【技术保护点】
1.一种基于波束成形的多说话者语音分离方法,其步骤包括:1)采集混合语音信号,得到多通道的多说话者混合语音信号;2)使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;3)从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;4)对步骤3)确定的S个波束分别进行增强,得到S个方向上的混合语音;5)对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱;6)将各短时傅里叶幅度谱分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;7)将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
【技术特征摘要】
1.一种基于波束成形的多说话者语音分离方法,其步骤包括:1)采集混合语音信号,得到多通道的多说话者混合语音信号;2)使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;3)从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;4)对步骤3)确定的S个波束分别进行增强,得到S个方向上的混合语音;5)对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱;6)将各短时傅里叶幅度谱分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;7)将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。2.如权利要求1所述的方法,其特征在于,使用最小方差无失真响应波束形成器对步骤3)确定的S个波束进行增强,得到S个方向上的混合语音。3.如权利要求1所述的方法,其特征在于,所述深度神经网络的损失函数为其中,B是时频单元的个数,表示估计的掩模,⊙表示点乘运算,|Xs|、|Y|分别表示目标说话者语音的幅度谱和混合语音的幅度谱。4.如权利要求3所述的方法,其特征在于,所述深度神经网络包括依次连接的三层BLSTM和一层全连接层。5.如权利要求1所述的方法,其特征在于,利用麦克风阵列采集混合语音信号,得到多通道的多说话人混合语音信号。6.如权利要求5所述的方法,其特征在于,所述麦克风阵列为一维麦克风阵列、二维麦克风阵列或三维麦克风...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。