一种基于联合字典学习和稀疏表示的单通道语音增强方法技术

技术编号:25189160 阅读:31 留言:0更新日期:2020-08-07 21:15
本发明专利技术提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,对干净语音做双树复数小波变换得到一组子带信号,对子带信号做短时傅里叶变换得到其时频谱,利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典,同样学习出干净噪声的联合字典;对带噪语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,利用该系数、时频谱相位和实部虚部符号以及掩码、权值等,得到该子带语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。

【技术实现步骤摘要】
一种基于联合字典学习和稀疏表示的单通道语音增强方法
本专利技术涉及单通道语音增强领域,尤其涉及一种基于联合字典学习和稀疏表示的单通道语音增强方法。
技术介绍
在人们的交流活动中,语音发挥着主导作用。由于受到形形色色噪声的污染,人耳和相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于字典学习和稀疏表示的单通道语音增强算法,这些算法利用语音信号在时频域上的稀疏特性,通过学习训练数据样本的结构特征并构造相应的字典,将带噪语音在字典上投影,进而估计出干净语音。但大多数算法只利用了语音时频谱的幅度信息,很少利用相位信息,因而语音增强的性能也就受到了限制。
技术实现思路
本专利技术的目的是提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,将双树复数小波变换应用于干净语音信号得到一组子带信号,对每个子带信号进行短时傅里叶变换得到其时频谱,充分利用时频谱幅度、实部和虚部以及语音的稀疏性学习训练语音样本的结构特征,构造出干净语音的联合字典,采用同样思路构造出干净噪声的联合字典;针对带噪语音信号,同样采用双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音联合字典和干净噪声联合字典上进行投影,得到语音和噪声的稀疏表示系数,利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码、权值等进行一系列运算,得到该子带语音时频谱的最终估计,然后进行短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。本专利技术的目的是通过以下技术方案实现的:一种基于联合字典学习和稀疏表示的单通道语音增强方法,包括:训练阶段,构建干净语音和干净噪声的训练数据集;针对干净语音训练数据集,用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,提取相应的幅度、实部和虚部绝对值,采用LARC算法和K-SVD算法学习训练数据样本的结构特征,获得干净语音每个子带的幅度、实部和虚部的联合字典;针对干净噪声训练数据集,采用同样思路获得干净噪声每个子带的幅度、实部和虚部的联合字典;检测阶段,针对带噪语音信号,用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,提取相应的幅度、实部和虚部绝对值,保留相位信息以及实部、虚部符号,并分别在干净语音联合字典和干净噪声联合字典上进行投影,得到语音和噪声的稀疏表示系数,利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码等进行一系列运算,得到该子带语音时频谱的初始估计和更新估计,进一步通过加权得到最终估计,然后进行短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT),得到增强后的语音信号。本专利技术与现有技术相比的优点在于:由上述本专利技术提供的技术方案可以看出,本方法在训练阶段,首先用双树复数小波变换将单通道干净语音信号分解成一组子信号,增加了信号的时频表征能力;其次用短时傅里叶变换将每个子带信号变换成时频谱,充分利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典;对于干净噪声信号,采用同样过程学习出干净噪声的联合字典;本方法在检测阶段,用双树复数小波变换将带噪语音分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,这些过程明显降低了估计误差,得到时频谱的最终的精确估计,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。增强后的语音信号的质量得到了提升。本专利技术提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,对干净语音做双树复数小波变换得到一组子带信号,对子带信号做短时傅里叶变换得到其时频谱,利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典,同样学习出干净噪声的联合字典;对带噪语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,利用该系数、时频谱相位和实部虚部符号以及掩码、权值等,得到该子带语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于联合字典学习和稀疏表示的单通道语音增强方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。不同于已有的大多数单通道语音增强算法,本专利技术实施例提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,本方法首先将单通道信号分解成一组子信号,增加信号的表征能力;其次充分利用信号各子带时频谱的幅度、实部和虚部信息来学习干净语音的联合字典和干净噪声的联合字典;接着对带噪语音变换后的每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,这些过程明显降低了估计误差,得到时频谱的最终的精确估计,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。提高了语音增强能力。如图1所示,其主要包括:步骤1、训练阶段步骤11、构建干净语音和干净噪声的训练数据集;步骤12、用双树复数小波变换(DTCWT)分别将干净语音和干净噪声的训练数据集中的干净语音信号str(t)和干净噪声训练信号ntr(t)分解为一组子带信号和即:其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:其中,STFT{}本文档来自技高网...

【技术保护点】
1.一种基于联合字典学习和稀疏表示的单通道语音增强方法,其特征在于,包括:/n步骤1、训练阶段/n步骤11、构建干净语音和干净噪声的训练数据集;/n步骤12、用双树复数小波变换(DTCWT)分别将干净语音和干净噪声训练数据集中的干净语音信号s

【技术特征摘要】
20200518 CN 20201041854791.一种基于联合字典学习和稀疏表示的单通道语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、构建干净语音和干净噪声的训练数据集;
步骤12、用双树复数小波变换(DTCWT)分别将干净语音和干净噪声训练数据集中的干净语音信号str(t)和干净噪声训练信号ntr(t)分解为一组子带信号和即:






其中DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:






其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,分别为幅度、实部和虚部,分别为的幅度、实部和虚部;
步骤14、采用LARC算法和K-SVD算法分别学习干净语音和干净噪声复数谱的幅度、实部和虚部绝对值,得到相应的联合字典和字典的学习过程如下:


















其中,分别是干净语音子带信号的幅度、实部和虚部字典;是干净语音子带信号的稀疏表示系数;干净语音子带信号的稀疏表示系数为矩阵形式,为的第g列;分别是干净噪声子带信号的幅度、实部和虚部字典;是干净噪声子带信号的稀疏表示系数;干净噪声子带信号的稀疏表示系数为矩阵形式,为的第g列,q为稀疏约束;代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、带噪语音信号为x(t)=s(t)+n(t),用双树复数小波变换(DTCWT)将其分解为一组子带信号即:



其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对带噪语音的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:



其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,分别为幅度、实部和虚部,提取相应的幅度、实部和虚部绝对值,并保留相位信息以及实部、虚部符号留待进一步处理;
步骤23,把带噪语音的每一子带信号的复数谱的幅度、实部和虚部绝对值组织起来,



并在干净语音和干净噪声的联合字典和上分别进行对应投影,获得投影的语音和噪声稀疏表示系数,计算如下:


















其中,分别为在联合字典上的候选稀疏表示系数,为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系...

【专利技术属性】
技术研发人员:叶中付穆罕默德绍希杜尔·伊斯兰姆
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1