当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于波束成形的多说话者语音分离方法及系统技术方案

技术编号:21249251 阅读:82 留言:0更新日期:2019-06-01 08:29
本发明专利技术公开了一种基于波束成形的多说话者语音分离方法及系统。本方法为:采集混合语音信号,得到多通道的多说话者混合语音信号并对其进行扫描,得到MUSIC能量谱;从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;对S个波束分别进行增强,得到S个方向上的混合语音;对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱并将其分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

A Beamforming-Based Speech Separation Method and System for Multi-Speakers

The invention discloses a multi-speaker speech separation method and system based on beam forming. The method is as follows: collecting mixed speech signals, obtaining multi-channel multi-speaker mixed speech signals and scanning them to obtain MUSIC energy spectrum; obtaining S peaks from the MUSIC energy spectrum, each peak corresponds to a beam direction; enhancing S beams separately to obtain mixed speech in S directions; and performing short-time Fourier transform for mixed speech corresponding to each direction. The short-time Fourier amplitude spectrum of S target speakers'speech is obtained and input into the depth neural network to estimate the corresponding phase-sensing masks of each target speaker. The phase-sensing masks of each target speaker are multiplied with the corresponding mixed speech amplitude spectrum element by element to obtain the target speaker's amplitude spectrum, and the phase spectrum of the corresponding mixed speech is used to communicate. The time domain signal of the target speaker is recovered by over-inverse short-time Fourier transform.

【技术实现步骤摘要】
一种基于波束成形的多说话者语音分离方法及系统
本专利技术属于语音分离
,涉及波束成形和深度神经网络模型,具体涉及一种基于波束成形的语音分离方法及系统。
技术介绍
在一个具有噪声或者多说话人等干扰的复杂声学场景中,拾取出目标说话人的语音一直是语音领域的难题,这个问题被称作“鸡尾酒会问题”。正常人得益于自身听觉上的注意机制,将注意力聚焦在混合声音中的目标声音,从而能在这种复杂环境下进行对话交流。然而对于机器来说,“鸡尾酒会问题”却是一个困难的任务。尽管现在自动语音识别的识别率在干净语音下能够做到接近甚至超过常人,但是在含有多个说话人的语音识别中,自动语音识别的识别率会大幅度的下降。而这首先要解决的一个问题就是多说话人语音的分离。传统的方法比如隐马尔科夫模型(HMM)、非负矩阵分解(NMF)、独立成分分析(ICA)等等方法已经很早被提出来解决多说话人语音分离的问题,但是效果并不是那么理想。最近几年,一种叫做听觉计算场景分析的方法(CASA,ComputationalAuditorySceneAnalysis)被提出来,在语音分离方便取得了不错的效果。CASA模仿人类的听觉感知机理,增强目标声音而抑制其余干扰。与此同时,随着深度学习技术的发展,它已经成功应用到很多领域,尤其是语音领域,比如语音识别、去混响和增强。基于深度学习的有监督的多说话人语音分离的思路主要有两类。一类是深度聚类(DeepClustering)和深度吸引子网络(DeepAttractorNetwork),其主要思想是对混合语音幅度谱图的时频单元进行嵌入(Embedding)训练,将每一个时频单元映射到一个高维向量,然后对这些时频向量的高维表示进行聚类,各聚类中心代表着分离语音的某个独立成分,接着生成时频掩模,得出分离语音的谱估计,最后使用混合语音的相位谱恢复语音的时序信号。该策略假设每个时频点只有一个源占主导地位,并且属于同一源的时频点在嵌入空间中彼此靠近。因此,通过使用聚类算法,可以分离多个讲话者的语音。但是,每个时频点可以同时属于不同的目标。同时,两者还需要额外的聚类算法来处理,相对较复杂。另外一种思路是置换不变训练方法(PIT,PermutationInvariantTraining)。其基本思路就是首先通过短时傅里叶变换将时序信号转换为一个具有上下文信息的多帧幅度谱,通过DNN、CNN或者LSTM的深度模型,得到多个说话人语音的时频掩模(Mask)的估计,掩模分别乘上原混合信号的谱图就得到对应说话人幅度谱的估计,其分别与真实说话人的幅度谱做均方误差,然后加权求和得到总的均方误差。而在进行预测时,输入混合语音的幅度谱得到分离语音幅度谱的估计后,使用混合语音的相位谱一起恢复分离语音的时域表示。但这里边就存在一个被称作“标签置换”的问题。举例来说,对于给定两个说话人幅度谱的标签[s1,s2],而网络输出的幅度谱估计为[a1,a2],在网络计算损失值的时候,可以用[s1,s2]去对应[a1,a2],也可以用[s2,s1]去对应[a1,a2],这就存在一个标签以何种排列去对应模型输出的问题。而PIT训练方法则每次在输出的幅度谱估计和给定的标签幅度谱信息之间两两计算一个均方误差,最终模型只按照最小均方误差的那一个排列方式去进行优化训练。但是从理论上来说,匹配计算的时间复杂度是阶乘级的。然而,两种思路及其以之为基础的多通道分离方法都存在两个问题,一是说话人越多,分离越难,分离后的语音的可懂度也越差;而且它们都必须提前人为设置说话人数目或者说话人数目的最大值,即使后来有改进的方法,在未知说话人的分离上也表现得较差。
技术实现思路
针对现有技术存在的技术问题,本专利技术提出了一种基于波束成形和深度神经网络的多说话者语音分离方法及系统,本专利技术首先通过声源定位算法估计说话者的数量,然后在空域中利用波束形成来增强目标语音。在时频域上提取完目标说话者的短时傅里叶特征后,使用监督的深度模型恢复出目标说话者的语音,从而完成多个说话者的语音分离。本专利技术的重要创新之处在于它将空间信息引入到分离方法中,将稀疏假设从时频域扩展到空时频域;同时此系统没有必要事先知道说话人的数量,而是通过多重信号分类(MUSIC,MultipleSignalClassification)算法的能谱中的峰值数来获知。本专利技术的技术方案为:一种基于波束成形的多说话者语音分离方法,其步骤包括:1)首先,利用麦克风阵列采集混合语音信号,得到多通道的多说话者混合语音信号;2)在得到多通道数据后,使用MUSIC算法的空间谱函数在所有的方向上进行扫描,得到MUSIC能量谱;3)利用步骤二得到的MUSIC能量谱可获得多个峰值,假设为S,可以判断混合音频是S个说话者语音的混合,也就是该多通道音频数据是S个说话者同时说话采集得到的;4)根据步骤三得到的S个方向,使用最小方差无失真响应(MVDR,MinimumVarianceDistortionlessResponse)波束形成器在S个波束上进行增强,得到S个方向上的混合语音,对于每一个混合语音,存在一个能量最大的目标说话人,其余是能量较低的其他说话人;5)对得到的S个方向上的混合语音分别进行短时傅里叶变换(STFT,ShortTimeFourierTransform),获得S个目标说话者方向混合语音的短时傅里叶幅度谱;6)基于短时傅里叶幅度谱利用深度神经网络强大的非线性建模能力估计波束增强语音的相位感知掩模(PSM,PhaseSensitiveMask);7)最后,通过估计的掩模与混合语音的幅度谱的逐元素相乘来获得S个目标说话者的幅度谱,并利用步骤3)得到的S个方向上混合语音的相位谱通过逆短时傅立叶变换恢复目标说话者的时域信号。本专利技术提出的基于波束成形的多说话者语音分离技术的基本框架如图1所示,该方法是一种多通道方法,其中主要包括以下几个部分:多通道数据获取单元,用于采集混合语音信号,得到多通道的多说话者混合语音信号;说话者数目获知单元,用于使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;并从该MUSIC能量谱中获得S个峰值,即S个目标说话者;其中每一峰值对应一波束方向;波束增强单元,用于对确定的S个波束分别进行增强,得到S个方向上的混合语音,并计算其短时傅里叶幅度谱;PSM掩模估计单元,用于利用深度神经网络对各短时傅里叶幅度谱分别进行估计,得到每一目标说话者对应的相位感知掩模;目标说话人语音恢复单元,用于将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。与现有技术相比,本专利技术的积极效果为:本专利技术充分利用了时间、频率和空间域的信息,同时不需要提前人为设定说话人数目或者最大值,克服了现有分离方法依赖说话人数量这一先验知识的不足,理论上来说能够较好的分离任意多个混合说话人语音。附图说明图1为本专利技术提出的提出的多说话人语音分离框架;图2为本专利技术所用的深度神经网络结构;图3为本专利技术中多通道数据采集所用的麦克风阵列。具体实施方式下面参照本专利技术的附图,更详细地描述本专利技术的最佳实施例。图1所示为本本文档来自技高网
...

【技术保护点】
1.一种基于波束成形的多说话者语音分离方法,其步骤包括:1)采集混合语音信号,得到多通道的多说话者混合语音信号;2)使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;3)从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;4)对步骤3)确定的S个波束分别进行增强,得到S个方向上的混合语音;5)对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱;6)将各短时傅里叶幅度谱分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;7)将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

【技术特征摘要】
1.一种基于波束成形的多说话者语音分离方法,其步骤包括:1)采集混合语音信号,得到多通道的多说话者混合语音信号;2)使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;3)从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;4)对步骤3)确定的S个波束分别进行增强,得到S个方向上的混合语音;5)对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱;6)将各短时傅里叶幅度谱分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;7)将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。2.如权利要求1所述的方法,其特征在于,使用最小方差无失真响应波束形成器对步骤3)确定的S个波束进行增强,得到S个方向上的混合语音。3.如权利要求1所述的方法,其特征在于,所述深度神经网络的损失函数为其中,B是时频单元的个数,表示估计的掩模,⊙表示点乘运算,|Xs|、|Y|分别表示目标说话者语音的幅度谱和混合语音的幅度谱。4.如权利要求3所述的方法,其特征在于,所述深度神经网络包括依次连接的三层BLSTM和一层全连接层。5.如权利要求1所述的方法,其特征在于,利用麦克风阵列采集混合语音信号,得到多通道的多说话人混合语音信号。6.如权利要求5所述的方法,其特征在于,所述麦克风阵列为一维麦克风阵列、二维麦克风阵列或三维麦克风...

【专利技术属性】
技术研发人员:曲天书吴玺宏彭超
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1