一种基于卷积递归神经网络的单通道实时降噪方法技术

技术编号:21275454 阅读:30 留言:0更新日期:2019-06-06 09:04
本公开揭示了一种基于卷积递归神经网络的单通道实时降噪方法、装置及电子设备、存储介质,属于计算机技术领域。所述方法包括:从接收的单通道声音信号中提取声学特征,将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜,采用所述比值膜对所述声学特征进行掩蔽,将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成,得到语音信号。上述基于卷积递归神经网络的单通道实时降噪方法及装置能够减少神经网络参数数量,降低数据存储量和对系统数据带宽的需求,在能够实现良好的降噪性能的同时大大提高了单通道语音降噪的实时性。

【技术实现步骤摘要】
一种基于卷积递归神经网络的单通道实时降噪方法
本公开涉及计算机应用
,特别涉及一种基于卷积递归神经网络的单通道实时降噪方法、装置及电子设备、存储介质。
技术介绍
语音降噪指将目标语音信号与背景噪声进行分离从而消除或抑制背景噪声。单通道语音是仅依靠单麦克风录音生成的语音信号,与基于波束形成的降噪技术(即通过麦克风阵列的适当配置进行空间滤波)相比,单通道语音降噪可以应用于更宽泛的声学场景。单通道语音降噪不仅在成本上有优势,而且在实际情况下也更容易使用。此外,单通道语音分离可用于强化波束形成和相关的麦克风阵列的效果。由于单通道语音没有麦克风阵列提供的空间信息作为参考,因此单声道语音降噪尤为困难。最近,将单通道语音降噪当作一种监督学习,突破性地将信号处理问题转变为监督学习任务。以传统的语音增强为代表的信号处理方法是基于背景噪声和语音的一般统计分析,而监督学习方法由数据驱动,并且能够自动地从具体的训练样本中学习。可以说,监督学习方法的引入实现了单通道语音降噪技术的飞跃。然而,目前监督学习的单通道语音降噪方法中,网络参数的数量较多且模型较为复杂,影响了单通道语音降噪的实时性及降噪效果。
技术实现思路
为了解决相关技术中单通道语音降噪的网络参数数量较多且模型较为复杂的技术问题,本公开提供了一种基于卷积递归神经网络的单通道实时降噪方法、装置及终端。第一方面,提供了一种基于卷积递归神经网络的单通道实时降噪方法,包括:从接收的单通道声音信号中提取声学特征;将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜;采用所述比值膜对所述声学特征进行掩蔽;将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成,得到降噪后语音信号。可选的,所述从接收的单通道声音信号中提取声学特征的步骤包括:将接收的单通道声音信号按照预设时间周期分为时间帧;从所述时间帧中提取频谱幅度矢量;对所述频谱幅度矢量进行归一化处理,形成声学特征。可选的,对所述频谱幅度矢量进行归一化处理,形成声学特征的步骤包括:将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理,形成声学特征。可选的,所述对所述频谱幅度矢量进行归一化处理,形成声学特征的步骤包括:将当前时间帧、过去时间帧与未来时间帧的频谱幅度矢量合并进行归一化处理,形成声学特征。可选的,将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜的步骤之前,所述方法还包括:将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络;通过所述卷积递归神经网络对预先收集的语音训练集进行训练,构建所述卷积递归神经网络模型。可选的,所述卷积神经网络为卷积编码器-解码器结构,所述编码器包括一组卷积层和池化层,所述解码器的结构与反向顺序的所述编码器相同,所述编码器的输出连接所述解码器的输入。可选的,所述具有长短期记忆的递归神经网络包括两个堆叠的长短期记忆层。可选的,所述将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络的步骤包括:将两个堆叠的长短期记忆层合并入卷积神经网络的编码器与解码器之间,构建所述卷积递归神经网络。可选的,所述卷积神经网络中的每个卷积层或池化层包括最多16个核,所述具有长短期记忆的递归神经网络的每个长短期记忆层包括64个神经元。可选的,所述语音训练集由在日常环境下采集的背景噪声、各类型的男女声以及特定信噪比混合的语音信号组合而成。第二方面,提供了一种单通道实时降噪装置,包括:声学特征提取模块,用于从接收的单通道声音信号中提取声学特征;比值膜计算模块,用于将所述声学特征在预先构建的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜;掩蔽模块,用于采用所述比值膜对所述声学特征进行掩蔽;语音合成模块,用于将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成,得到降噪语音信号。可选的,采用理想比值掩膜作为卷积递归神经网络的训练目标。第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。第四方面,提供了一种计算机可读存储介质,用于存储程序,所述程序在被执行时使得电子设备执行如第一方面所述的方法。本公开的实施例提供的技术方案可以包括以下有益效果:在进行单通道实时降噪时,从接收的单通道声音信号中提取声学特征,将声学特征在预先训练的卷积递归神经网络模型中进行迭代运算计算声学特征的比值膜后,采用该比值膜对声学特征进行掩蔽,再将经过掩蔽后的声学特征与单通道声音信号的相位进行合成,得到语音信号,由于该方案中采用了预先训练的卷积递归神经网络模型,在具有良好的降噪性能的同时,大大减少了神经网络参数数量,降低了数据存储量和对系统数据带宽的需求。应当理解的是,以上的一般描述和后文的细节描述仅为示例性,并不能限制本公开范围。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种基于卷积递归神经网络的单通道实时降噪方法的流程图。图2是图1对应实施例的基于卷积递归神经网络的单通道实时降噪方法中步骤S110的一种具体实现流程图。图3是图1基于卷积递归神经网络的单通道实时降噪方法中步骤S120的一种具体实现流程图。图4是根据一示例性实施例示出的单通道实时降噪的流程示意图。图5为未对CRN模型进行压缩时预测的频谱幅度示意图。图6为对CRN模型进行压缩后预测的频谱幅度示意图。图7是根据一示例性实施例示出的在多人谈话噪声场景下经LSTM模型训练的、经CRN模型训练的、及与未经训练的STOI参数比对结果示意图。图8是根据一示例性实施例示出的在咖啡厅噪声场景下经LSTM模型训练的、经CRN模型训练的、及与未经训练的STOI参数比对结果示意图。图9是根据一示例性实施例输出的在-5dBSNR(信噪比)下多人谈话噪声场景中未经训练的声音信号的频谱图。图10是根据一示例性实施例相应于图9的纯净话语频谱图。图11是根据一示例性实施例输出的是采用CRN模型降噪后的频谱图。图12是根据一示例性实施例示出的一种单通道实时降噪装置的框图。图13是图12对应实施例示出的单通道实时降噪装置中声学特征提取模块110的一种框图。图14是图12对应实施例示出的比值膜计算模块120的一种框图。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、与本专利技术的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种基于卷积递归神经网络的单通道实时降噪方法的流程图。该基于卷积递归神经网络的单通道实时降噪方法可用于智能手机、电脑等电子设备中。如图1所示,该基于卷积递归神经网络的单通道实时降噪方法可以包括步骤S110、步骤S120、步骤S130、步骤S140。步骤本文档来自技高网...

【技术保护点】
1.一种基于卷积递归神经网络的单通道实时降噪方法,其特征在于,所述方法包括:从接收的单通道声音信号中提取声学特征;将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜;采用所述比值膜对所述声学特征进行掩蔽;将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成,得到语音信号。

【技术特征摘要】
1.一种基于卷积递归神经网络的单通道实时降噪方法,其特征在于,所述方法包括:从接收的单通道声音信号中提取声学特征;将所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜;采用所述比值膜对所述声学特征进行掩蔽;将经过掩蔽后的所述声学特征与所述单通道声音信号的相位进行合成,得到语音信号。2.根据权利要求1所述的方法,其特征在于,所述从接收的单通道声音信号中提取声学特征的步骤包括:将接收的单通道声音信号按照预设时间周期分为时间帧;从所述时间帧中提取频谱幅度矢量;对所述频谱幅度矢量进行归一化处理,形成声学特征。3.根据权利要求2所述的方法,其特征在于,所述频谱幅度矢量进行归一化处理,形成声学特征的步骤包括:将当前时间帧与过去时间帧的频谱幅度矢量合并进行归一化处理形成声学特征。4.根据权利要求2所述的方法,其特征在于,所述频谱幅度矢量进行归一化处理,形成声学特征的步骤包括:将当前时间帧、过去时间帧与未来时间帧的频谱幅度矢量合并进行归一化处理,形成声学特征。5.根据权利要求1所述的方法,其特征在于,所述声学特征在预先训练的卷积递归神经网络模型中进行迭代运算,计算所述声学特征的比值膜的步骤包括:将卷积神经网络与具有长短期记忆的递归神经网络进行组合得到卷积递归神经网络;通过所述卷积递归神经网络对预先收集的语音训练集进行训练,构建所述卷积递归神经网络模型。6.根据权利要求5所述的方法,其特征在于,所述卷积神经网络为卷积编码器-解码器结构,所述编码器包括一组卷积层和池化层,所述解码器的结构与反向顺序的所述编码器相同,所述编码器的输出连接所述解码器的输入。7.根据权利...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:大象声科深圳科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1