语音信号增强方法及装置制造方法及图纸

技术编号:21609000 阅读:69 留言:0更新日期:2019-07-13 19:26
本申请公开了一种语音信号增强方法及装置,通过将当前场景的语音信号基于预设的时长间隔分割成多个帧信号;基于预设步长,将多个帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个帧信号进行卷积操作,获取多个增强后的帧信号;根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的语音信号。与现有技术相比,本申请通过神经网络对语音信号进行自动增强,无需人工干预,使得语音增强的效果和应用场景无需受限于预设方法及方法设计者,从而降低信号失真和额外杂音的出现频率,进而提高语音信号增强效果。

Speech Signal Enhancement Method and Device

【技术实现步骤摘要】
语音信号增强方法及装置
本申请涉及语音信号处理
,尤其涉及一种语音信号增强方法及装置。
技术介绍
语音信号增强是为了提升语音的可懂性,和提升那些被加性噪声所污染的语音,其主要应用于主要应用于通信设备,同样也有应用在听力辅助,人工耳蜗等植入设备。现有的语音信号增强方法,通常采用“谱减法”、“维纳滤波”、“统计模型方法”、“子空间法”等。但在采用现有技术进行语音信号增强时发现,由于这些语音信号增强方法在原理上属于人工预设方法,因此效果和应用场景均受限于预设方法及方法设计者,且现实中语音场景多种多样,采用现有技术进行语音增强的过程中不可避免地会出现信号失真以及出现额外杂音的情况,因此,在面对复杂的语音场景时,现有的语音增强技术的鲁棒性较差。
技术实现思路
本申请实施例所要解决的技术问题在于,提供一种语音信号增强方法及装置,实现对不同场景的语音信号的增强。为解决上述问题,本申请实施例提供一种语音信号增强方法,至少包括:采集当前场景的语音信号;基于预设的时长间隔,对所述语音信号进行分帧,生成多个帧信号;基于预设步长,将多个所述帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个所述帧信号进行卷积操作,获取多个增强后的帧信号;根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的所述语音信号。进一步的,所述基于预设的时长间隔,对所述语音信号进行分帧,生成多个帧信号,具体为:基于预设的时长间隔,对所述语音信号进行分帧,并将分帧后的所述语音信号加以汉宁窗后进行DFT,生成多个帧信号。进一步的,所述神经网络的训练方法为:采集多个噪声信号及不带噪声的多个清晰信号;基于随机生成的混合系数,将多个所述噪声信号与多个所述清晰信号一一进行混合,获得多个所述带噪信号;其中,一个所述噪声信号与一个所述清晰信号混合成一个所述带噪信号;将多个所述带噪信号依次输入所述神经网络进行信号增强,产生一一对应的多个降噪信号,并根据各所述降噪信号与各降噪信号一一对应的各所述清晰信号的最小平方误差,调整所述神经网络。进一步的,所述将多个所述带噪信号依次输入所述神经网络进行信号增强,产生一一对应的多个降噪信号,并根据各所述降噪信号与各降噪信号一一对应的各所述清晰信号的最小平方误差,调整所述神经网络,具体为:将所述带噪信号输入所述神经网络,根据所述带噪信号通过所述神经网络进行信号增强后产生的降噪信号,与对应的清晰信号的最小平方误差,调整所述神经网络,并根据下一所述带噪信号通过调整后的神经网络产生的降噪信号,与对应的清晰信号的最小平方误差,继续调整所述神经网络,直至利用不同的带噪信号获得的最小平方误差不再产生变化时,完成所述神经网络的训练。进一步的,所述神经网络包括N个依次排序的卷积层;以第N/2层卷积层为对称轴,两两对称的卷积层之间跳转连接;其中,N为偶数。进一步的,还提供一种语音信号增强装置,包括:信号采集模块,用于采集当前场景的语音信号;信号分帧模块,用于基于预设的时长间隔,对所述语音信号进行分帧,生成多个帧信号;信号增强模块,用于基于预设步长,将多个所述帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个所述帧信号进行卷积操作,获取多个增强后的帧信号;信号输出模块,用于根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的所述语音信号。进一步的,所述信号分帧模块具体用于:基于预设的时长间隔,对所述语音信号进行分帧,并将分帧后的所述语音信号加以汉宁窗后进行DFT,生成多个帧信号。进一步的,所述神经网络的训练方法为:采集多个噪声信号及不带噪声的多个清晰信号;基于随机生成的混合系数,将多个所述噪声信号与多个所述清晰信号一一进行混合,获得多个所述带噪信号;其中,一个所述噪声信号与一个所述清晰信号混合成一个所述带噪信号;将多个所述带噪信号依次输入所述神经网络进行信号增强,产生一一对应的多个降噪信号,并根据各所述降噪信号与各降噪信号一一对应的各所述清晰信号的最小平方误差,调整所述神经网络。进一步的,所述将多个所述带噪信号依次输入所述神经网络进行信号增强,产生一一对应的多个降噪信号,并根据各所述降噪信号与各降噪信号一一对应的各所述清晰信号的最小平方误差,调整所述神经网络,具体为:将所述带噪信号输入所述神经网络,根据所述带噪信号通过所述神经网络进行信号增强后产生的降噪信号,与对应的清晰信号的最小平方误差,调整所述神经网络,并根据下一所述带噪信号通过调整后的神经网络产生的降噪信号,与对应的清晰信号的最小平方误差,继续调整所述神经网络,直至利用不同的带噪信号获得的最小平方误差不再产生变化时,完成所述神经网络的训练。进一步的,所述神经网络包括N个依次排序的卷积层;以第N/2层卷积层为对称轴,两两对称的卷积层之间跳转连接。实施本申请实施例,具有如下有益效果:本申请实施例提供的一种语音信号增强方法及装置,通过将当前场景的语音信号基于预设的时长间隔分割成多个帧信号;基于预设步长,将多个帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个帧信号进行卷积操作,获取多个增强后的帧信号;根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的语音信号。与现有技术相比,本申请通过神经网络对语音信号进行自动增强,无需人工干预,使得语音增强的效果和应用场景无需受限于预设方法及方法设计者,从而降低信号失真和额外杂音的出现频率,进而提高语音信号增强效果。附图说明图1是本申请的一个实施例提供的语音信号增强方法的流程示意图;图2是本申请的一个实施例提供的神经网络训练方法的流程示意图;图3是本申请的一个实施例提供的语音信号增强装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参见图1。参见图1,是本申请的一个实施例提供的语音信号增强方法的流程示意图,如图1所示,该语音信号增强方法包括:步骤S11、采集当前场景的语音信号。由于采样频率为22.05KHz的音源已经达到了FM广播的声音品质,能够被清楚识别,若采集22.05KHz以上的音源进行语音信号增强,效果也并不显著,因此在本实施例中,采集当前场景中采样频率为16KHz的音源作为语音信号。步骤S12、基于预设的时长间隔,对语音信号进行分帧,生成多个帧信号。具体的,基于预设的时长间隔,对语音信号进行分帧,并将分帧后的语音信号加以汉宁窗后进行DFT,生成多个帧信号。在本实施例中,预设的时长间隔为16ms。步骤S13,基于预设步长,将多个帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个帧信号进行卷积操作,获取多个增强后的帧信号。由于多个帧信号中存在信号重叠,因此在本实施例中,以50%的帧长为步长,将多个帧信号按生成顺序,每10帧输入训练好的神经网络。步骤S14,根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的语音信号。考虑到增强后的多个帧信号之间存在信号重叠,因此在本实施例中,通过重叠叠加法,将每个增强后的帧信号重构成本文档来自技高网...

【技术保护点】
1.一种语音信号增强方法,其特征在于,包括:采集当前场景的语音信号;基于预设的时长间隔,对所述语音信号进行分帧,生成多个帧信号;基于预设步长,将多个所述帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个所述帧信号进行卷积操作,获取多个增强后的帧信号;根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的所述语音信号。

【技术特征摘要】
1.一种语音信号增强方法,其特征在于,包括:采集当前场景的语音信号;基于预设的时长间隔,对所述语音信号进行分帧,生成多个帧信号;基于预设步长,将多个所述帧信号输入训练好的神经网络,通过跳转连接的卷积层对多个所述帧信号进行卷积操作,获取多个增强后的帧信号;根据每个增强后的帧信号的时域,对每个增强后的帧信号进行叠加,获得增强后的所述语音信号。2.根据权利要求1所述的语音信号增强方法,其特征在于,所述基于预设的时长间隔,对所述语音信号进行分帧,生成多个帧信号,具体为:基于预设的时长间隔,对所述语音信号进行分帧,并将分帧后的所述语音信号加以汉宁窗后进行DFT,生成多个帧信号。3.根据权利要求1所述的语音信号增强方法,其特征在于,所述神经网络的训练方法为:采集多个噪声信号及不带噪声的多个清晰信号;基于随机生成的混合系数,将多个所述噪声信号与多个所述清晰信号一一进行混合,获得多个所述带噪信号;其中,一个所述噪声信号与一个所述清晰信号混合成一个所述带噪信号;将多个所述带噪信号依次输入所述神经网络进行信号增强,产生一一对应的多个降噪信号,并根据各所述降噪信号与各降噪信号一一对应的各所述清晰信号的最小平方误差,调整所述神经网络。4.根据权利要求3所述的语音信号增强方法,其特征在于,所述将多个所述带噪信号依次输入所述神经网络进行信号增强,产生一一对应的多个降噪信号,并根据各所述降噪信号与各降噪信号一一对应的各所述清晰信号的最小平方误差,调整所述神经网络,具体为:将所述带噪信号输入所述神经网络,根据所述带噪信号通过所述神经网络进行信号增强后产生的降噪信号,与对应的清晰信号的最小平方误差,调整所述神经网络,并根据下一所述带噪信号通过调整后的神经网络产生的降噪信号,与对应的清晰信号的最小平方误差,继续调整所述神经网络,直至利用不同的带噪信号获得的最小平方误差不再产生变化时,完成所述神经网络的训练。5.根据权利要求1-4任意一项所述的语音信号增强方法,其特征在于,所述神经网络包括N个依次排序的卷积层;以第N/2层卷积层为对称轴,两两对称的卷积层之间跳转连接;其中,N为偶数。6.一...

【专利技术属性】
技术研发人员:冯万健张联昌刘键涛
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1