基于神经网络的端到端语音增强方法、装置制造方法及图纸

技术编号:35200210 阅读:10 留言:0更新日期:2022-10-15 10:08
本公开一种基于神经网络的端到端语音增强方法、装置、介质及设备;涉及语音信号处理领域。所述方法包括:利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号。本公开通过对原始语音信号提取时域平滑特征,并结合深度神经网络可以实现时域降噪参数的自学习,进一步提升语音信号的质量。量。量。

【技术实现步骤摘要】
基于神经网络的端到端语音增强方法、装置


[0001]本公开涉及语音信号处理领域,具体而言,涉及一种基于神经网络的端到端语音增强方法、语音增强装置、计算机可读存储介质以及电子设备。

技术介绍

[0002]近几年,随着深度学习技术的高速发展,语音识别技术的识别效果也得到很大提升,该技术在无噪音场景下语音的识别准确率,已达到可以替代人工的语音识别标准。
[0003]目前,语音识别技术主要可以应用于智能客服、会议录音转写、智能硬件等场景。但是,当背景环境有噪音时,如在智能客服通话时用户周围环境杂音或会议记录音频中的背景杂音等,受此类杂音影响,语音识别技术可能无法准确地识别说话人的语义,进而影响语音识别的整体准确率。
[0004]因此,如何提高有噪音情况下的语音识别准确率成为语音识别技术下一个需要攻克的难关。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种基于神经网络的端到端语音增强方法、语音增强装置、计算机可读存储介质以及电子设备,以解决现有技术中有噪音情况下的语音识别准确率较低的问题。
[0007]根据本公开的第一方面,提供一种基于神经网络的端到端语音增强方法,包括:
[0008]利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;
[0009]对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号。
[0010]在本公开的一种示例性实施例中,所述利用时域卷积核对处理后的原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征,包括:
[0011]根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;
[0012]对所述时域平滑参数矩阵作乘积运算得到所述时域卷积核的权重矩阵;
[0013]将所述时域卷积核的权重矩阵和所述原始语音信号作卷积运算,得到所述原始语音信号的时域平滑特征。
[0014]在本公开的一种示例性实施例中,所述根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵,包括:
[0015]初始化多个时域平滑因子;
[0016]基于预设的卷积滑窗和所述多个时域平滑因子得到时域平滑参数矩阵。
[0017]在本公开的一种示例性实施例中,所述对所述原始语音信号和所述原始语音信号
的时域平滑特征进行组合特征提取,得到增强语音信号,包括:
[0018]合并所述原始语音信号和所述原始语音信号的时域平滑特征,得到待增强语音信号;
[0019]以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时域卷积核的权重矩阵进行训练;
[0020]根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到增强语音信号。
[0021]在本公开的一种示例性实施例中,所述以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时域卷积核的权重矩阵进行训练,包括:
[0022]将所述待增强语音信号输入深度神经网络中,并构建时域损失函数;
[0023]根据所述时域损失函数,利用误差反向传播算法对所述时域卷积核的权重矩阵进行训练。
[0024]在本公开的一种示例性实施例中,所述根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到增强语音信号,包括:
[0025]将训练得到的权重矩阵与所述待增强语音信号中的原始语音信号作卷积运算,得到第一时域特征图;
[0026]将训练得到的权重矩阵与所述待增强语音信号中的平滑特征作卷积运算,得到第二时域特征图;
[0027]组合所述第一时域特征图和所述第二时域特征图,得到所述增强语音信号。
[0028]根据本公开的第二方面,提供基于神经网络的端到端语音增强装置,包括:
[0029]时域平滑特征提取模块,用于利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;
[0030]组合特征提取模块,对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号。
[0031]根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
[0032]根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
[0033]本公开示例性实施例可以具有以下部分或全部有益效果:
[0034]在本公开示例实施方式所提供的语音增强方法中,通过利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号。一方面,通过对原始语音信号中的幅度信息和相位信息均进行增强,可以提升语音增强的整体效果;另一方面,通过卷积神经网络对原始语音信号提取时域平滑特征,并结合深度神经网络可以实现时域降噪参数的自学习,进一步提升语音信号的质量。
[0035]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0036]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0037]图1示出了可以应用本公开实施例的一种端到端语音增强方法及装置的示例性系统架构的示意图;
[0038]图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
[0039]图3示意性示出了根据本公开的一个实施例的端到端语音增强方法的流程图;
[0040]图4示意性示出了根据本公开的一个实施例的时域平滑特征提取的流程图;
[0041]图5示意性示出了根据本公开的一个实施例的增强语音信号获取的流程图;
[0042]图6示意性示出了根据本公开的一个实施例的组合特征提取的流程图;
[0043]图7示意性示出了根据本公开的一个实施例的端到端语音增强方法的流程图;
[0044]图8示意性示出了根据本公开的一个实施例的端到端语音增强装置的框图。
具体实施方式
[0045]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的端到端语音增强方法,其特征在于,包括:利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号。2.根据权利要求1所述的端到端语音增强方法,其特征在于,所述利用时域卷积核对原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征,包括:根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;对所述时域平滑参数矩阵作乘积运算得到所述时域卷积核的权重矩阵;将所述时域卷积核的权重矩阵和所述原始语音信号作卷积运算,得到所述原始语音信号的时域平滑特征。3.根据权利要求2所述的端到端语音增强方法,其特征在于,所述根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵,包括:初始化多个时域平滑因子;基于预设的卷积滑窗和所述多个时域平滑因子得到时域平滑参数矩阵。4.根据权利要求1所述的端到端语音增强方法,其特征在于,所述对所述原始语音信号和所述原始语音信号的时域平滑特征进行组合特征提取,得到增强语音信号,包括:合并所述原始语音信号和所述原始语音信号的时域平滑特征,得到待增强语音信号;以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时域卷积核的权重矩阵进行训练;根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到增强语音信号。5.根据权利要求4所述的端到端语音增强方法,其特征在于,所述以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时域卷积核的权重矩阵进行训练,包括:将所述待增强语音信号输入深度神经网络中,并构建时域损失函数;根据所述时域损失函数,利用误差反向传播算法对所述时域卷积核的权重矩阵进行训练。6.根据权利要求4所述的端到端语音增强方法,其特征在于,所述根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到增强语音信号,包括:将训练得到的权重矩阵与所述待增强语音信号中的原始语音信号作卷积运算,得到第一时域特征图;将训练得到的权重矩阵与所述待增强语音信号中的平滑特征作卷积运算,得到第二时域特征图;组合所述第一时域特征图和所述第二时域特征图,得到所述增强语音信号。7.一种基于神经网络的端到端语音增强装置,其特征在于,包括:时域平滑特征提取模块,用于利用时域卷积核对处理后的原始语音信号进行特征提取,得到所述原始语音信号的时域平滑特征;组合特征提取模块,对所述原始语音信号和所述原始语音信号的...

【专利技术属性】
技术研发人员:陈泽华吴俊仪蔡玉玉雪巍杨帆丁国宏何晓冬
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1