【技术实现步骤摘要】
基于PESQ驱动的强化学习估计先验信噪比的语音增强方法
[0001]本专利技术属于语音增强的
,具体涉及一种用强化学习优化Deep Xi
‑
TCN网络估计先验信噪比的方法,用于提升语音质量感知评价分数。
技术介绍
[0002]在实际应用中,无处不在的噪声和混响大大损害了语音交互的体验和自动语音识别(Automatic Speech Recognition,ASR)的性能。语音增强的目的是从背景干扰中提取清晰的语音,以获得更高的语音可懂度和感知质量。谱减法可以用来实现噪声抑制。该方法基于最小均方误差(Minimum Mean
‑
Square Error,MMSE)估计噪声功率谱(GERKMANN T,HENDRIKS R C.Unbiased MMSE
‑
Based Noise Power Estimation With Low Complexity and Low Tracking Delay[J].IEEE Transactions on Audio Speech&Language Processing,2012,20(4):1383
–
1393),随后将含噪语音功率谱减去噪声功率谱得到增强语音的功率谱,再结合含噪语音短时傅里叶谱的相位信息得到增强语音短时傅里叶谱,然后经逆傅里叶变换得到增强语音信号。谱减法在许多场景下取得了良好的噪声抑制效果,但由于其假设的噪声和语音模型的限制,该算法在处理某些低信噪比(Signal />‑
Noise Ratio,SNR)、非稳态噪声场景语音的效果较差,容易导致语音的失真。WPE算法被用于语音的去混响(NAKATANI T,YOSHIOKA T,KINOSHITA K,et al.Speech Dereverberation Based on Variance
‑
Normalized Delayed Linear Prediction[J].IEEE Transactions on Audio Speech&Language Processing,2010,18(7):1717
–
1731)。它对语音短时傅里叶谱建立时帧的自回归模型,通过迭代的方式估计逆滤波器系数和早期混响的功率谱,进而求得清晰语音的短时傅里叶谱。WPE算法在语音去混响上取得了优越的效果,但算法的迭代特性使其难以运用在短延时的实时处理当中。
[0003]近年来,深度神经网络(Deep Neural Network,DNN)因其强大的非线性建模能力,在语音增强领域取得了令人瞩目的成果(WANG,D L,CHEN J.Supervised speech separation based on deep learning:An overview[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2018,26(10):1702
‑
1726.)。对于单通道语音增强,端到端处理是最直接的方法,但它面临着泛化的挑战,即DNN的输出在训练集未包含的噪声条件下可能会严重恶化。最近提出的Deep Xi框架(ZHANG Q,NICOLSON A,WANG M,et al.DeepMMSE:A deep learning approach to MMSE
‑
based noise power spectral density estimation[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2020,28:1404
‑
1415.)可以被视为一种有效的混合方法,结合了基于规则的MMSE语音增强策略和数据驱动的深度学习方法来估计先验信噪比。与其他噪声功率谱密度估计器不同,它不对语音或噪声的特性做任何假设,不表现出任何跟踪延迟,也不依赖偏置补偿。此外,DNN只用于跟踪噪声功率谱密度(Power Spectral Density,PSD)和信噪比,其输出是根据基于规则的方法计算的,所以可以减少端到端方法的风险。
[0004]对于基于深度学习的语音增强,有研究指出,用估计信号和清晰语音之间的均方
误差这样的通用标准来处理语音,并不能保证高的语音质量和可懂度。在与人类感知有关的客观指标中,语音质量的感知评价(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short
‑
Time Objective Intelligibility,STOI)是评价语音质量和可懂度的两个流行指标。因此,直接使用这两个函数来优化模型是一项有意义的工作。一些研究集中于STOI分数的优化,以提高语音可懂度,但PESQ分数不能通过最大化STOI分数来改善。另有一些研究简化了PESQ中对称干扰向量的计算,在响度谱的绝对差值上应用了一个中心剪切算子,这样就可以把它纳入训练目标。然而,PESQ本身是不可微分的,反向传播的导数也无法计算,所以很难得到一个通用的训练方案。
[0005]作为一种自我优化的方法,强化学习(Reinforcement Learning,RL)可以被理解为在反馈环境中采取行动,让机器学习最优策略,使累积奖励最大化,其在机器人行为控制、智能对话管理、让机器人玩游戏和语音识别等领域受到广泛关注。RL的使用已经在端到端语音增强方案中得到了探索,已经被验证了增强的语音确实能带来更好的PESQ分数,并且RL增强方案具有训练数据少的优势。
技术实现思路
[0006]传统基于规则的方法在对低信噪比、非稳态噪声、强混响环境下的语音进行增强时往往难以去除噪声成分,甚至会造成严重的语音失真。而纯端到端的方法在面对陌生的噪声和混响环境时,效果会极大恶化。Deep Xi是一种混合语音增强方案,其结合了基于规则的方法和深度学习的语音增强的方法,但由于训练过程是依赖估计信号和清晰语音之间的均方误差标准来达到收敛效果的,并不能达到语音质量的感知评价的优化。为此,本专利技术提出在Deep Xi
‑
TCN网络估计的先验信噪比的基础上,进一步用强化学习引入PESQ指标优化信噪比的估计,从而得到感知评分更好的清晰语音,特别是低信噪比时提升效果相对明显。
[0007]为实现上述目的,本专利技术采用的技术方案为:
[0008]基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,该方法包括以下步骤:
[0009]步骤1,使用训练集中的清晰语音和噪声以随机信噪比合成模拟含噪语音,并对三者做短时傅里叶变换分别得到清晰语音短时傅里叶谱、噪声短时傅里叶谱和模拟含噪语音短时傅里叶谱;
[0010]步骤2,使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练Deep Xi
‑
TCN网络本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,该方法包括以下步骤:步骤1,使用训练集中的清晰语音和噪声以随机信噪比合成模拟含噪语音,并对三者做短时傅里叶变换分别得到清晰语音短时傅里叶谱、噪声短时傅里叶谱和模拟含噪语音短时傅里叶谱;步骤2,使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练Deep Xi
‑
TCN网络;步骤3,利用所述清晰语音短时傅里叶谱幅度和噪声短时傅立叶谱幅度相除,并将其范围映射到[0,1],生成训练集的映射信噪比,然后通过K
‑
means聚类生成有限个聚类中心,作为先验信噪比模板;步骤4,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签,用以训练DQN网络初始化参数;步骤5,正式训练阶段,通过所述DQN网络在帧层面挑选信噪比模板,信噪比模板为步骤2完成训练的Deep Xi
‑
TCN网络推断的信噪比或者步骤3生成的先验信噪比模板;然后计算出与PESQ值相关的奖励,进行强化学习迭代,更新所述DQN网络参数;步骤6,将测试集清晰语音和噪声合成的含噪语音短时傅里叶谱输入步骤5完成训练的DQN网络,并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换,得到增强语音的时域信号。2.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,步骤2中,所述Deep Xi
‑
TCN网络的输入数据首先经过一个全连接输入层,然后通过若干个残差块,再通过一个全连接输出层输出估计的映射信噪比;其中每个残差块包括三层激活函数为ReLU并且带层正则化的一维卷积网络,可实现时频域块的二维特征提取。3.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,步骤4中,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签的具体步骤为:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。