当前位置: 首页 > 专利查询>南京大学专利>正文

基于PESQ驱动的强化学习估计先验信噪比的语音增强方法技术

技术编号:32553535 阅读:28 留言:0更新日期:2022-03-05 11:54
本发明专利技术公开了一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,具体步骤如下:(1)使用清晰语音和噪声数据集生成模拟含噪语音,并做短时傅里叶变换得到短时傅里叶谱;(2)用清晰语音和含噪语音的短时傅里叶谱训练Deep Xi

【技术实现步骤摘要】
基于PESQ驱动的强化学习估计先验信噪比的语音增强方法


[0001]本专利技术属于语音增强的
,具体涉及一种用强化学习优化Deep Xi

TCN网络估计先验信噪比的方法,用于提升语音质量感知评价分数。

技术介绍

[0002]在实际应用中,无处不在的噪声和混响大大损害了语音交互的体验和自动语音识别(Automatic Speech Recognition,ASR)的性能。语音增强的目的是从背景干扰中提取清晰的语音,以获得更高的语音可懂度和感知质量。谱减法可以用来实现噪声抑制。该方法基于最小均方误差(Minimum Mean

Square Error,MMSE)估计噪声功率谱(GERKMANN T,HENDRIKS R C.Unbiased MMSE

Based Noise Power Estimation With Low Complexity and Low Tracking Delay[J].IEEE Transactions on Audio Speech&L本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,该方法包括以下步骤:步骤1,使用训练集中的清晰语音和噪声以随机信噪比合成模拟含噪语音,并对三者做短时傅里叶变换分别得到清晰语音短时傅里叶谱、噪声短时傅里叶谱和模拟含噪语音短时傅里叶谱;步骤2,使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练Deep Xi

TCN网络;步骤3,利用所述清晰语音短时傅里叶谱幅度和噪声短时傅立叶谱幅度相除,并将其范围映射到[0,1],生成训练集的映射信噪比,然后通过K

means聚类生成有限个聚类中心,作为先验信噪比模板;步骤4,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签,用以训练DQN网络初始化参数;步骤5,正式训练阶段,通过所述DQN网络在帧层面挑选信噪比模板,信噪比模板为步骤2完成训练的Deep Xi

TCN网络推断的信噪比或者步骤3生成的先验信噪比模板;然后计算出与PESQ值相关的奖励,进行强化学习迭代,更新所述DQN网络参数;步骤6,将测试集清晰语音和噪声合成的含噪语音短时傅里叶谱输入步骤5完成训练的DQN网络,并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换,得到增强语音的时域信号。2.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,步骤2中,所述Deep Xi

TCN网络的输入数据首先经过一个全连接输入层,然后通过若干个残差块,再通过一个全连接输出层输出估计的映射信噪比;其中每个残差块包括三层激活函数为ReLU并且带层正则化的一维卷积网络,可实现时频域块的二维特征提取。3.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,步骤4中,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签的具体步骤为:...

【专利技术属性】
技术研发人员:雷桐卢晶
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1