语音增强方法技术

技术编号:19906153 阅读:37 留言:0更新日期:2018-12-26 03:45
本发明专利技术公开了一种语音增强方法,包括:采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收到的信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望语音方向的语音信号;利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。该方法能够在方向性的非平稳干扰和无方向性的环境噪声同时存在的情况下仍然保持良好的语音增强的性能。

【技术实现步骤摘要】
语音增强方法
本专利技术涉及多通道语音降噪
,尤其涉及一种语音增强方法。
技术介绍
语音是人类最便捷和自然的交流工具之一,一方面它消除了人与人之间交流的距离隔阂,另一方面它也提高了人与机器之间交互的效率。然而,现实环境中无处不在的噪声也不同程度地影响着语音交流的质量,研究有效的语音增强技术就显得尤为重要,是近几十年来学者们研究的热点。在现有的语音增强算法中,可以根据麦克风的数量将其分为两大类,即多通道语音增强算法和单通道语音增强算法。其中在多通道算法中,波束形成方法最为常见。然而波束形成算法往往对抑制方向性干扰和噪声的能力较好,对于无方向性的环境噪声,波束形成的性能就会降低。因此,近年来波束形成与后置滤波结合的方法成为了研究热点。但是,目前提出的后置滤波的方法大多假设环境噪声为高斯白噪声或者是散弹噪声,并且没有考虑干扰的情况,因此当方向性的非平稳干扰和环境噪声同时存在时,这些后置滤波方法对语音信号的增强效果并不是很好。
技术实现思路
本专利技术的目的是针对麦克风阵列接收的多通道语音信号提供一种语音增强方法,能够在方向性的非平稳干扰和无方向性的环境噪声同时存在的情况下仍然保持良好的语音增强的性能。本专利技术的目的是通过以下技术方案实现的:一种语音增强方法,包括:采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号;利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。由上述本专利技术提供的技术方案可以看出,充分利用了多通道信号的空域信息、时域信息和频域信息,利用联合字典学习的方法进一步估计出了波束形成的输出信号中的残留干扰和残留噪声,从而能够保持较好的语音增强的能力。此外,由于本方法并不依赖于对噪声场的假设,因此具有较强的适应性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种语音增强方法的流程图;图2为本专利技术实施例提供的一种语音增强方法的框图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种语音增强方法对于方向性的非平稳干扰和无方向性的环境噪声,此方法均有很好的语音增强性能。本专利技术实例适用于多干扰和噪声共存的情况下,以单干扰和单噪声为例进行介绍。如图1所示,该方法主要包括如下步骤:步骤1、采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典。步骤2、通过多重信号分类算法测得期望语音信号的入射方向,并采用最小方差无畸变响应(MinimumVarianceDistortionlessResponse,MVDR)波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号。步骤3、利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。本专利技术上述方案,相比较于已有的波束形成与后置滤波结合的语音增强算法,通过利用多通道信号的空域信息达到抑制干扰和噪声的目的,然后通过联合稀疏表示分别估计出波束形成输出信号的语音信号、残留的干扰和噪声,最后通过设计权重系数充分利用各个稀疏表示的互补优势,更加准确地估计出了期望语音信号,达到了语音增强的目的。该方法有较好的适用性。为了便于理解,下面针对上述方法的三个步骤做详细的说明。1、采用单通道联合字典学习方法进行联合字典的训练。本专利技术实施例中,同时考虑了干扰和噪声对语音信号的影响,在训练阶段,将干净语音信号str(t)、干净干扰itr(t)、干净噪声ntr(t)分别通过短时傅里叶变换得到时频域上的干净语音信号Str、干净干扰Itr和干净噪声Ntr,将这些时频域上的信号线性相加得到混合信号Ytr;采用联合字典学习的方法来获得联合字典,其包括:具有映射关系的混合信号字典Dy1和语音字典Ds,记为混合信号字典Dy2和干扰字典Di,记为以及混合信号字典Dy3和噪声字典Dn,记为其中,虽然三个混合信号字典Dy1、Dy2和Dy3都是由混合信号Ytr生成的字典,但是由于与它们联合的字典是不同的(Dy1联合Ds,Dy2联合Di,Dy3联合Dn),其中的映射关系也不相同,因此这三个混合信号字典是不相同的。式中,C1是对于混合信号和干净语音信号的相同稀疏表示系数,C2是对于混合信号和干净干扰的相同稀疏表示系数,C3是对于混合信号和干净噪声的相同稀疏表示系数,q为稀疏约束;c1,g、c2,g和c3,g对应地表示稀疏系数矩阵C1、C2和C3的第g列;表示弗罗贝尼乌斯范数,||·||1表示1-范数。2、采用MVDR波束形成器来处理阵列接收信号。本专利技术实施例中,利用MVDR波束形成处理阵列接收信号,通过抑制来自非目标方向上的信号来实现抑制干扰和噪声的目的。本专利技术实例适用于任意类型的阵列流行,包括线阵列、圆阵列或者面阵列等等。下面以线阵列为例进行介绍:假设一个由M个全向性阵元排列成均匀线阵列,来自空间中的远场信号入射到该阵列,则在观测时刻t第m个阵元接收到的信号xm(t)为:xm(t)=s[t-τm(θs)]+i[t-τm(θi)]+nm(t)式中,s[t-τm(θs)](m=1,2,…,M)表示接收信号中的期望语音信号,i[t-τm(θi)]表示干扰(主要由点噪声源产生),nm(t)表示环境噪声(散弹噪声,即无方向噪声);τm(θs)为第m个阵元与参考点接收到的期望语音信号之间的时间差,τm(θi)为第m个阵元与参考点接收到的干扰之间的时间差,θs和θi分别表示期望语音信号和干扰的入射方向。那么阵列接收信号可以表示为:x(t)=[x1(t)x2(t)…xM(t)]T阵列接收信号x(t)经过短时傅里叶变换后为x(k,ω):x(k,ω)=gs(ω)S(k,ω)+gi(ω)I(k,ω)+n(k,ω);其中:式中,Xm(k,ω),S(k,ω),I(k,ω)和Nm(k,ω)分别为xm(t),s(t),i(t)和nm(t)的短时傅里叶变换,s(t)、i(t)分别为观测时刻t阵列接收信号中的期望语音信号、干扰;gs(ω)为对应期望语音信号S(k,ω)的方向角度的导向矢量,其中的元素对应于各个阵元;gi(ω)为对应干扰i(t)的方向角本文档来自技高网...

【技术保护点】
1.一种语音增强方法,其特征在于,包括:采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号;利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典;通过多重信号分类算法测得期望语音信号的入射方向,并采用MVDR波束形成器来处理阵列接收信号,在抑制非期望语音方向上的干扰和噪声的同时增强期望方向的语音信号;利用学习获得的联合字典,对MVDR波束形成器的输出信号进行一级联合稀疏表示,并根据稀疏表示的残留成分设计权重系数,从而获得最终估计的语音信号、干扰和噪声,再结合维纳滤波器的形式得到对语音信号的基于均方意义的最优估计,最终恢复出期望的语音信号,实现语音增强。2.根据权利要求1所述的一种语音增强方法,其特征在于,所述采用联合字典学习方法的训练方法,针对干净的语音信号、干扰和噪声,学习获得联合字典包括:在训练阶段,将干净语音信号str(t)、干净干扰itr(t)、干净噪声ntr(t)分别通过短时傅里叶变换得到时频域上的干净语音信号Str、干净干扰Itr和干净噪声Ntr,将这些时频域上的信号线性相加得到混合信号Ytr;采用联合字典学习的方法来获得联合字典,其包括:具有映射关系的混合信号字典Dy1和语音字典Ds,记为混合信号字典Dy2和干扰字典Di,记为以及混合信号字典Dy3和噪声字典Dn,记为其中,三个混合信号字典Dy1、Dy2与Dy3是由混合信号Ytr生成的互不相同的字典,C1是对于混合信号和干净语音信号的相同稀疏表示系数,C2是对于混合信号和干净干扰的相同稀疏表示系数,C3是对于混合信号和干净噪声的相同稀疏表示系数,q为稀疏约束;c1,g、c2,g和c3,g对应的表示稀疏系数矩阵C1、C2和C3的第g列;表示弗罗贝尼乌斯范数,||·||1表示1-范数。3.根据权利要求1所述的一种语音增强方法,其特征在于,阵列接收到的信号采用下述方式来表示:阵列为任意类型的阵列,包括:线阵列、圆阵列或者面阵列;假设一个由M个全向性的阵元排列成均匀线阵列,来自空间中的远场信号入射到该阵列,则在观测时刻t第m个阵元接收到的信号xm(t)为:xm(t)=s[t-τm(θs)]+i[t-τm(θi)]+nm(t)式中,s[t-τm(θs)](m=1,2,…,M)表示接收信号中的期望语音信号,i[t-τm(θi)]表示干扰(主要由点噪声源产生),nm(t)表示环境噪声(散弹噪声,即无方向噪声);τm(θs)为第m个阵元与参考点接收到的期望语音信号之间的时间差,τm(θi)为第m个阵元与参考点接收到的干扰之间的时间差,θs和θi分别表示期望语音信号和干扰的入射方向;阵列接收信号表示为:x(t)=[x1(t)x2(t)…xM(t)]T;阵列接收信号x(t)经过短时傅...

【专利技术属性】
技术研发人员:叶中付朱媛媛
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1