The invention discloses a deep learning speech enhancement method based on absolute auditory threshold, which includes the following steps: S1. Preprocessing the input time-domain audio signal to obtain the frequency-domain speech signal; S2. Acoustic feature processing of the frequency-domain speech signal to obtain the characteristic speech signal; S3. Constructing the characteristic speech enhancement network model based on the depth neural network; S4. Increasing the characteristic speech; Strong network model is trained offline to get mature feature speech enhancement network model; S5. On-line speech enhancement using mature feature speech enhancement network model. The method uses absolute auditory threshold to process the acoustic characteristics of speech signals, highlights the characteristics of speech signals, reduces the data volume of network input speech signals, reduces network input parameters and improves network training speed without losing the intelligibility and clarity of output audio.
【技术实现步骤摘要】
一种基于绝对听觉阈值的深度学习语音增强方法
本专利技术涉及通信系统中语音信号的增强技术,特别是涉及一种基于绝对听觉阈值的深度学习语音增强方法。
技术介绍
语音信号的增强技术一直是语音领域的热门研究点。目前应用较为广泛的传统语音增强方法有谱减法,维纳滤波法,基于统计模型的方法和子空间法等,这些方法均属于无监督语音增强方法。然而,只有在噪声是慢变或短时平稳的情况下,无监督语音增强方法才能获得较好的性能。近年来,有监督语音增强方法得到蓬勃发展,随着深度学习(DeepLearning,DL)概念的提出以及其在语音增强性能提升方面的成功应用,使得属于有监督语音增强方法的基于深度神经网络(DeepNeuralNetwork,DNN)的语音增强方法的得到广泛关注。深度神经网络的网络结构主要分为输入层,隐藏层,输出层。基于深度神经网络的语音增强方法通常是将带噪语音信号作为输入层数据,纯净语音信号作为输出目标数据,以此训练网络模型。然而,根据人耳的听觉特性,语音信号中的部分信号是不能被人耳所感知的。将带噪语音信号数据和纯净语音信号数据直接代入深度神经网络训练,网络同样会对那部分人耳未能感知的信号数据进行训练,这部分冗余数据将造成训练网络的负担,降低网络训练速率以及影响网络输出音频的可懂度和清晰度。因此,通过绝对听觉阈值对语音信号进行特征处理,去除人耳不能感知的冗余信号,将处理后的信号作为网络训练数据,并不会损失输出音频的可懂度和清晰度,且提升网络对目标信号的收敛以及训练速率。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于绝对听觉阈值的深度学习语音增强方法, ...
【技术保护点】
1.一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。
【技术特征摘要】
1.一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。2.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S1包括以下子步骤:S101.对输入的时域音频信号进行分帧处理,得到长度为N的语音帧信号y(t):y(t)=[y(t1),y(t2),...,y(tN)];其中,ti表示时间,y(ti)表示语音帧信号y(t)中时间ti所对应时域信号,i=1,2,...,N;S102.对语音帧信号y(t)进行DCT变换,使语音帧信号y(t)从时域变换到频域,得到长度为N的频域语音信号Y(f):Y(f)=[Y(f1),Y(f2),...,Y(fN)];其中,Y(fi)表示由时域信号y(ti)变换得到的频域信号,fi表示频域信号Y(fi)的频率,i=1,2,...,N。3.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S2包括以下子步骤:S201.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其声压级SPL(fi):SPL(fi)=PN+10*log10Y2(fi),i=1,2,...,N其中PN=90.306;SPL(fi)与PN的单位均为dB;S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的声压级SPL(f1),SPL(f2),...,SPL(fN),即频域语音信号Y(f)的声压级SPL(f)为:SPL(f)=[SPL(f1),SPL(f2),...,SPL(fN)];S203.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其绝对听觉阈值ATH(fi):其中,ATH(fi)的单位为dB,i=1,2,...,N;S204.重复步骤S203,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的绝对听觉阈值ATH(f1),ATH(f2),...,ATH(fN),即频域语音信号Y(f)的绝对听觉阈值ATH(f)为:ATH(f)=[ATH(f1),ATH(f2),...,ATH(fN)];S205.在频域语音信号Y(f)=[Y(f1),Y(f2),...,Y(fN)]中,将频率fi的声压级SPL(fi)与绝对听觉阈值ATH(fi)进行比较,如果SPL(fi)低于ATH(fi),则将频率fi所对应的频域信号Y(fi)置为0,得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。4.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:步骤S1中所述的...
【专利技术属性】
技术研发人员:卿朝进,万东琴,蔡斌,阳庆瑶,张岷涛,
申请(专利权)人:西华大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。