一种基于RefineNet和评价损失的语音增强方法技术

技术编号:23086712 阅读:26 留言:0更新日期:2020-01-11 01:43
本发明专利技术公开一种基于RefineNet和评价损失的语音增强方法,包括以下步骤:S1:通过短时傅里叶变换(STFT)从时域带噪声的语音s计算出幅度x和相位p;S2:通过ResNet从x提取多级时频特征,提取出的多级时频特征由RefineNet融合,并且使用x和RefineNet的输出之间的残差连接来促进模型训练;S3:将特征图输入全连接层以估计干净语音的频谱幅度

A speech enhancement method based on refinenet and evaluation loss

【技术实现步骤摘要】
一种基于RefineNet和评价损失的语音增强方法
本专利技术属于语音增强
,尤其涉及一种基于RefineNet和评价损失的语音增强方法。
技术介绍
语音增强是一项提升语音质量与可懂度的技术,目前的工作表明,基于神经网络的非端到端方法能取得最好的质量与可懂度指标。关于网络结构设计,与前馈神经网络和循环神经网络相比,具有编码器-解码器架构的卷积神经网络可以用更少的参数实现更好的性能,但是用于语音增强的卷积神经网络缺乏融合深层抽象特征与浅层精细特征的设计,导致网络在前向传播过程中信息丢失。在损失函数方面,最新的工作开始使用评价指标作为损失,根据语音质量与可懂度,在训练时给予模型正确的反馈。但是,这些评价指标损失缺乏语音相位误差成分,导致非端到端的方法无法针对语音相位调整对幅度的输出。
技术实现思路
本专利技术提供一种基于RefineNet和评价损失的语音增强方法,旨在解决上述存在的问题。本专利技术是这样实现的,一种基于RefineNet和评价损失的语音增强方法,包括以下步骤:S1:通过短时傅里叶变换本文档来自技高网...

【技术保护点】
1.一种基于RefineNet和评价损失的语音增强方法,其特征在于,包括以下步骤:/nS1:通过短时傅里叶变换(STFT)从时域带噪声的语音s计算出幅度x和相位p;/nS2:通过ResNet从x提取多级时频特征,提取出的多级时频特征由RefineNet融合,并且使用x和RefineNet的输出之间的残差连接来促进模型训练;/nS3:将特征图输入全连接层以估计干净语音的频谱幅度

【技术特征摘要】
1.一种基于RefineNet和评价损失的语音增强方法,其特征在于,包括以下步骤:
S1:通过短时傅里叶变换(STFT)从时域带噪声的语音s计算出幅度x和相位p;
S2:通过ResNet从x提取多级时频特征,提取出的多级时频特征由RefineNet融合,并且使用x和RefineNet的输出之间的残差连接来促进模型训练;
S3:将特征图输入全连接层以估计干净语音的频谱幅度
S4:通过逆STFT(ISTFT)将p和重构成时域干净语音的估计其中,通过卷积层实现ISTFT,并且将语音质量和可懂度的多个性能指标融合作为损失函数。


2.根据权利要求1所述的语音增强方法,其特征在于:所述ResNet由25个卷积层组成,分为InputConv块和4个ResBlock,每个ResBlock包括2个瓶颈构建块和1个剩余连接;其中,输入特征图大小为512*512。


3.根据权利要...

【专利技术属性】
技术研发人员:蓝天彭川钱宇欣刘峤李萌惠国强李森叶文政吕忆蓝
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1