【技术实现步骤摘要】
一种幅度相位混合特征交叉的语音增强方法
[0001]本专利技术涉及语音增强中的噪声消除领域,特别涉及一种幅度相位混合特征交叉的深度学习语音增强方法。
技术介绍
[0002]经典方法语音增强方法,如谱减法、维纳滤波法、最小均方误差估计等,在一定程度上展示了较好的噪声抑制效果,但衍生了广为熟知的音乐噪声。特别地,经典的语音增强方法大多假设噪声为加性噪声,噪声是一种慢变过程,或者噪声的分布为某种特定的分布;当实际的噪声不满足假设时,这些经典方法的降噪性能将会大打折扣。
[0003]近年来,基于深度学习的语音增强方法展示出了优于经典方法的语音增强效果以及良好的应用前景。根据网络学习的目标不同,基于深度学习的语音增强方法可分为三大类:基于频谱映射语音增强方法、基于时频掩蔽语音增强方法和基于信号近似语音增强方法。然而,这些基于深度学习的语音增强方法大都基于幅度信息构建网络架构,相位信息并没有得到充分开发。事实上,语音的相位信息对语音质量和语音可懂度有较大的影响。因此,为充分利用含噪语音信号的特征信息,将幅度和相位同时作为输入特征 ...
【技术保护点】
【技术特征摘要】
1.一种基于幅度相位混合特征交叉的深度学习语音增强方法,其特征在于,包括以下步骤:a)根据长度为N的离散时域含噪语音信号y,得到增强型混合交叉特征O;b)根据长度为N的离散时域干净语音信号s和与之对应的离散时域含噪语音信号y,得到幅度相位降噪网络APNSN训练所用标签交叉压缩复数掩模L;c)将增强型混合交叉特征O输入到已训练的幅度相位降噪网络APNSN得到估计交叉压缩复数掩模d)根据估计交叉压缩复数掩模得到时域重构信号2.根据权利要求1所述方法,其特征在于,步骤a)进一步包括:a1).将长度为N的离散时域含噪语音信号y变换到时频域后,得到含噪信号频谱所述含噪信号频谱Y中,T=floor(N/N
h
)+1表示变换到时频域后的帧数,其中N
h
为短时傅里叶变换STFT的帧移长度,floor(
·
)表示对元素向下取整;所述含噪信号频谱Y中,F=N
STFT
/2+1表示含噪语音信号变换到时频域后的频点数,其中N
STFT
为STFT变换的长度;a2).利用下式,根据含噪信号频谱Y,得到离散时域含噪语音信号y的对数功率谱和相位即其中,A[i,j]表示矩阵A第i行第j列的元素;Re(
·
)和Im(
·
)分别表示复数的实部和虚部;θ[i,j]表示矩阵θ第i行第j列的元素;a3).将A和θ的每列依次交叉排列得到混合交叉特征即其中,可表示为其中,符号(
·
)
T
表示矩阵或矢量的取转置操作;a4).利用下式,根据混合交叉特征H,得到增强型混合交叉特征即其中,T
′
=T
‑
m+1,F
′
=2*m*F,m为特征扩张系数,可表示为其中,可表示为,其中,H[x,:]表示第x行所有列的元素。3.根据权利要求1所述的一种基于幅度相位混合特征交叉的深度学习语音增强方法,
其特征在于,步骤b)所述APNSN网络的训练标签交叉压缩复数掩模L的生成步骤进一步包括:b1).将长度为N的离散时域干净语音信号s变换到时频域,得到干净信号频谱b2).利用下式,根据含噪信号频谱Y和干净信号频谱S,可得到复数掩模实部和复数掩模虚部即其中,Y
r
[i,j]表示含噪信号频谱Y第i行第j列元素的实部;Y
i
[i,j]表示含噪信号频谱Y第i行第j列元素的虚部;S
r
[i,j]表示干净信号频谱S第i行第j列元素的实部;S
i
[i,j]表示干净信号频谱S第i行第j列元素的虚部;b3).利用下式,根据复数掩模实部M
r
和复数掩模虚部M
i
,计算到压缩复数掩模实部R
r
和压缩复数掩模虚部R
i
,即其中,i={1,2
...
【专利技术属性】
技术研发人员:卿朝进,付小伟,唐书海,叶青,刘文慧,杨娜,
申请(专利权)人:西华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。