当前位置: 首页 > 专利查询>西华大学专利>正文

一种基于绝对听觉阈值的深度学习语音增强方法技术

技术编号:20946077 阅读:66 留言:0更新日期:2019-04-24 03:03
本发明专利技术公开了一种基于绝对听觉阈值的深度学习语音增强方法,包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型;S4.对特征语音增强网络模型进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。本发明专利技术利用绝对听觉阈值对语音信号进行声学特征处理,突出语音信号特征,在不损失输出音频的可懂度和清晰度的情况下,降低网络输入语音信号的数据量,减少网络输入参数,提高网络训练速率。

A Deep Learning Speech Enhancement Method Based on Absolute Auditory Threshold

The invention discloses a deep learning speech enhancement method based on absolute auditory threshold, which includes the following steps: S1. Preprocessing the input time-domain audio signal to obtain the frequency-domain speech signal; S2. Acoustic feature processing of the frequency-domain speech signal to obtain the characteristic speech signal; S3. Constructing the characteristic speech enhancement network model based on the depth neural network; S4. Increasing the characteristic speech; Strong network model is trained offline to get mature feature speech enhancement network model; S5. On-line speech enhancement using mature feature speech enhancement network model. The method uses absolute auditory threshold to process the acoustic characteristics of speech signals, highlights the characteristics of speech signals, reduces the data volume of network input speech signals, reduces network input parameters and improves network training speed without losing the intelligibility and clarity of output audio.

【技术实现步骤摘要】
一种基于绝对听觉阈值的深度学习语音增强方法
本专利技术涉及通信系统中语音信号的增强技术,特别是涉及一种基于绝对听觉阈值的深度学习语音增强方法。
技术介绍
语音信号的增强技术一直是语音领域的热门研究点。目前应用较为广泛的传统语音增强方法有谱减法,维纳滤波法,基于统计模型的方法和子空间法等,这些方法均属于无监督语音增强方法。然而,只有在噪声是慢变或短时平稳的情况下,无监督语音增强方法才能获得较好的性能。近年来,有监督语音增强方法得到蓬勃发展,随着深度学习(DeepLearning,DL)概念的提出以及其在语音增强性能提升方面的成功应用,使得属于有监督语音增强方法的基于深度神经网络(DeepNeuralNetwork,DNN)的语音增强方法的得到广泛关注。深度神经网络的网络结构主要分为输入层,隐藏层,输出层。基于深度神经网络的语音增强方法通常是将带噪语音信号作为输入层数据,纯净语音信号作为输出目标数据,以此训练网络模型。然而,根据人耳的听觉特性,语音信号中的部分信号是不能被人耳所感知的。将带噪语音信号数据和纯净语音信号数据直接代入深度神经网络训练,网络同样会对那部分人耳未能感知的信号数据进行训练,这部分冗余数据将造成训练网络的负担,降低网络训练速率以及影响网络输出音频的可懂度和清晰度。因此,通过绝对听觉阈值对语音信号进行特征处理,去除人耳不能感知的冗余信号,将处理后的信号作为网络训练数据,并不会损失输出音频的可懂度和清晰度,且提升网络对目标信号的收敛以及训练速率。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于绝对听觉阈值的深度学习语音增强方法,利用绝对听觉阈值对语音信号进行声学特征处理,突出语音信号特征,在不损失输出音频的可懂度和清晰度的情况下,降低网络输入语音信号的数据量,减少网络输入参数,提高网络训练速率。本专利技术的目的是通过以下技术方案来实现的:一种基于绝对听觉阈值的深度学习语音增强方法,包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。进一步地,步骤S1中所述的时域音频信号包括带噪语音信号和纯净语音信号,其中带噪语音信号由纯净语音信号和噪声信号混合而成。所述的纯净语音信号和噪声信号来自TIMIT语料库、中国科学院自动化语音库以及采集的语音构成的语音库,达到更能泛化的目的。进一步地,所述步骤S1包括以下子步骤:S101.对输入的时域音频信号进行分帧处理,得到长度为N的语音帧信号y(t):y(t)=[y(t1),y(t2),...,y(tN)];其中,ti表示时间,y(ti)表示语音帧信号y(t)中时间ti所对应时域信号,i=1,2,...,N;S102.对语音帧信号y(t)进行DCT变换,使语音帧信号y(t)从时域变换到频域,得到长度为N的频域语音信号Y(f):Y(f)=[Y(f1),Y(f2),...,Y(fN)];其中,Y(fi)表示由时域信号y(ti)变换得到的频域信号,fi表示频域信号Y(fi)的频率,i=1,2,...,N。进一步地,所述步骤S2包括以下子步骤:S201.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其声压级SPL(fi):SPL(fi)=PN+10*log10Y2(fi),i=1,2,...,N其中PN=90.306;SPL(fi)与PN的单位均为dB;S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的声压级SPL(f1),SPL(f2),...,SPL(fN),即频域语音信号Y(f)的声压级SPL(f)为:SPL(f)=[SPL(f1),SPL(f2),...,SPL(fN)];S203.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其绝对听觉阈值ATH(fi):其中,ATH(fi)的单位为dB,i=1,2,...,N;S204.重复步骤S203,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的绝对听觉阈值ATH(f1),ATH(f2),...,ATH(fN),即频域语音信号Y(f)的绝对听觉阈值ATH(f)为:ATH(f)=[ATH(f1),ATH(f2),...,ATH(fN)];S205.在频域语音信号Y(f)=[Y(f1),Y(f2),...,Y(fN)]中,将频率fi的声压级SPL(fi)与绝对听觉阈值ATH(fi)进行比较,如果SPL(fi)低于ATH(fi),则将频率fi所对应的频域信号Y(fi)置为0,得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。进一步地,所述特征语音增强网络模型FaeNet的输入为:带噪语音信号经步骤S1和S2处理后得到的带噪特征语音信号特征语音增强网络模型FaeNet的增强目标为:纯净语音信号经步骤S1和S2处理后得到纯净特征语音信号进一步地,所述特征语音增强网络模型FaeNet包括一个输入层、L个隐藏层和一个输出层;其中L≥2;输入层节点数为N,隐藏层节点数为Nl,l=1,2,…,L;输出层节点数为N;所述特征语音增强网络模型FaeNet的激活函数采用sigmoid函数、tanh函数、ReLU函数、ELU函数或PReLU函数;所述特征语音增强网络模型FaeNet的损失函数采用均方误差(MeanSquareErro,MSE)、短时可懂度(ShortTimeObjectiveIntelligibility,STOI)和主观语音质量评分(PerceptualEvaluationofSpeechQuality,PESQ)。进一步地,所述步骤S4包括以下子步骤:S401.将带噪特征语音信号作为特征语音增强网络模型FaeNet的输入,得到特征语音增强网络模型FaeNet的输出的估计值将纯净特征语音信号作为特征语音增强网络模型FaeNet的增强目标;S402.根据均方误差、短时可懂度分值和主观语音质量评分三种损失函数对特征语音增强网络模型FaeNet的参数进行调整;具体地,所述步骤S402包括:计算均方误差,调整网络参数,使获得的均方误差最小;其中,均方误差是指输出信号与目标信号差的平方的期望;将输出音频以目标音频为标准进行打分,得到短时可懂度分值,调整网络参数,使获得的分值趋近于1分,其中,短时可懂度是指语音的可懂度,即语音内容是否可以被人听懂,短时可懂度分值的最高分值为1分,最低分值为0分;将输出音频以目标音频为标准进行主观语音质量评价,得到主观语音质量评分,调整网络参数,使获得的主观语音质量评分趋近于4.5分,其中,主观语音质量评分是指语音的质量,反映语音感知的清晰度,主观语音质量评分的最高分值为4.5分,最低分值为-0.5分。S403.获取不同的带噪语音信号和对应的纯净语音信号,按照步骤S1~S2进行处理,得到对应的带噪特征语音信号和纯净特征语音信号,并利用得到的信号再次进行步骤S401~S402;S404.本文档来自技高网...

【技术保护点】
1.一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。

【技术特征摘要】
1.一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:包括以下步骤:S1.对输入的时域音频信号进行预处理,得到频域语音信号;S2.对频域语音信号进行声学特征处理,得到特征语音信号;S3.基于深度神经网络,构建特征语音增强网络模型FaeNet;S4.对特征语音增强网络模型FaeNet进行离线训练,得到成熟的特征语音增强网络模型;S5.利用成熟的特征语音增强网络模型进行在线语音增强。2.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S1包括以下子步骤:S101.对输入的时域音频信号进行分帧处理,得到长度为N的语音帧信号y(t):y(t)=[y(t1),y(t2),...,y(tN)];其中,ti表示时间,y(ti)表示语音帧信号y(t)中时间ti所对应时域信号,i=1,2,...,N;S102.对语音帧信号y(t)进行DCT变换,使语音帧信号y(t)从时域变换到频域,得到长度为N的频域语音信号Y(f):Y(f)=[Y(f1),Y(f2),...,Y(fN)];其中,Y(fi)表示由时域信号y(ti)变换得到的频域信号,fi表示频域信号Y(fi)的频率,i=1,2,...,N。3.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:所述步骤S2包括以下子步骤:S201.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其声压级SPL(fi):SPL(fi)=PN+10*log10Y2(fi),i=1,2,...,N其中PN=90.306;SPL(fi)与PN的单位均为dB;S202.重复步骤S201,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的声压级SPL(f1),SPL(f2),...,SPL(fN),即频域语音信号Y(f)的声压级SPL(f)为:SPL(f)=[SPL(f1),SPL(f2),...,SPL(fN)];S203.对于频域语音信号Y(f)中任一频域信号Y(fi),计算其绝对听觉阈值ATH(fi):其中,ATH(fi)的单位为dB,i=1,2,...,N;S204.重复步骤S203,计算频域语音信号Y(f)中各个频域信号Y(f1),Y(f2),...,Y(fN)的绝对听觉阈值ATH(f1),ATH(f2),...,ATH(fN),即频域语音信号Y(f)的绝对听觉阈值ATH(f)为:ATH(f)=[ATH(f1),ATH(f2),...,ATH(fN)];S205.在频域语音信号Y(f)=[Y(f1),Y(f2),...,Y(fN)]中,将频率fi的声压级SPL(fi)与绝对听觉阈值ATH(fi)进行比较,如果SPL(fi)低于ATH(fi),则将频率fi所对应的频域信号Y(fi)置为0,得到长度为N稀疏度为的特征语音信号其中其中稀疏度是指信号中非零元素的个数。4.根据权利要求1所述的一种基于绝对听觉阈值的深度学习语音增强方法,其特征在于:步骤S1中所述的...

【专利技术属性】
技术研发人员:卿朝进万东琴蔡斌阳庆瑶张岷涛
申请(专利权)人:西华大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1