语音降噪方法、系统、电子设备和存储介质技术方案

技术编号:32888976 阅读:23 留言:0更新日期:2022-04-02 12:27
本发明专利技术公开语音降噪方法、系统、电子设备和存储介质,其中,一种语音降噪方法,包括:将获取的语音信号输入至预处理模块,其中,所述预处理模块包括对所述语音信号进行分帧和信号变换;将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征;将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。降噪系统包括数字音频输入模块,音频处理模块和数字音频输出3个模块构成,并且3个模块通过数字链路相互连接,从而可以实现提高降噪性能、减小语音失真和降低算法的复杂度。和降低算法的复杂度。和降低算法的复杂度。

【技术实现步骤摘要】
语音降噪方法、系统、电子设备和存储介质


[0001]本专利技术属于语音降噪
,尤其涉及语音降噪方法、系统、电子设备和存储介质。

技术介绍

[0002]语音降噪技术是一种从音频中去除环境噪音的同时保留目标人声的语音处理技术。该技术能够改善听觉体验,提高语音的可懂度以及提高语音识别、音色复刻等后端语音技术的性能。语音降噪技术在移动通话、人工耳蜗、无线耳机、智能音箱、多媒体APP、语音助手等众多产品中有广泛的应用价值。
[0003]按照出现的先后顺序,语音降噪技术方法大致可以分为两大类:基于统计学和信号处理技术的传统降噪方法,基于神经网络机器学习方法的智能降噪方法。传统降噪方法本质上是利用语音、噪声在时频(Time

Frequency,TF)统计特性上的差异,利用信号处理、统计分析等技术实现语音和噪声的分离。基于神经网络机器学习的智能降噪方法是随着神经网络技术的快速发展而新出现的一种数据驱动的方法。
[0004]传统的基于信号处理的降噪方法的大致步骤:首先根据语音和噪声在时频域上的一些特性差异来估计噪声的能量谱,然后利用声学和语音学理论得到频谱掩码,根据掩码和原始语音的频谱得到处理后的频谱,最后利用傅里叶逆变换得到处理后语音的波形。
[0005]基于神经网络的智能降噪方法在流程上一般包括训练和推理两个阶段。训练阶段的主要目标是通过使用语音、噪声数据集和最优化算法对计算过程进行迭代优化,得到最优的模型参数。推理阶段则是利用确定的运算规则和最优参数进行计算,从而从带噪语音数据中得到处理后的相对干净的语音。
[0006]对于语音降噪方法,主要从残余噪声,语音失真,计算复杂度、适用的场景等角度进行评价。传统语音降噪方法的主要缺点是:存在残余噪声和语音失真;在非平稳噪声下性能很差。基于神经网络的语音降噪方法能提高非平稳噪声场景下的性能,但存在降噪性能不足、复杂度太高等方面的问题。

技术实现思路

[0007]本专利技术实施例提供一种语音降噪方法和系统和装置,用于至少解决上述技术问题之一。
[0008]第一方面,本专利技术实施例提供一种语音降噪方法,包括:将获取的语音信号输入至预处理模块,其中,所述预处理模块包括对所述语音信号进行分帧和信号变换;将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征;将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。
[0009]第二方面,本专利技术实施例提供一种语音降噪系统,包括:数字音频输入模块,配置为向数字音频处理模块提供数字音频流;所述数字音频处理模块,配置为使用权利要求1

7中任一项所述降噪方法进行语音降噪;数字音频输出模块,配置为将所述数字音频处理模
块输出的音频保存、播放或者传输给其他设备或软件使用。
[0010]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音降噪方法和系统的步骤。
[0011]第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的语音降噪方法和系统的步骤。
[0012]本申请的方法、系统、电子设备和存储介质通过将获取的语音信号输入至预处理模块,然后将预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征,最后将干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形,从而可以实现提高降噪性能、减小语音失真和降低算法的复杂度。
附图说明
[0013]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术一实施例提供的一种语音降噪方法的流程图;
[0015]图2为本专利技术一实施例提供的另一种语音降噪方法的流程图;
[0016]图3为本专利技术一实施例提供的又一种语音降噪方法的流程图;
[0017]图4为本专利技术一实施例提供的一种语音降噪系统的框图;
[0018]图5为本专利技术一实施例提供的语音降噪方法和系统的一个具体示例的结构框图;
[0019]图6为本专利技术一实施例提供的语音降噪方法和系统的一个具体示例的数字语音降噪系统图;
[0020]图7为本专利技术一实施例提供的语音降噪方法和系统的一个具体示例的声学特征预测模型图;
[0021]图8为本专利技术一实施例提供的语音降噪方法和系统的一个具体示例的神经同态声码器结构图;
[0022]图9是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0023]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]请参考图1,其示出了本申请的语音降噪方法和系统一实施例的流程图,本实施例的语音降噪方法和系统可以适用于具备语音功能的终端、如智能手机、无线耳机、人工耳
蜗、智能音箱、多媒体APP、语音助手、平板、电脑等。
[0025]如图1所示,在步骤101中,将获取的语音信号输入至预处理模块,其中,所述预处理模块包括对所述语音信号进行分帧和信号变换;
[0026]在步骤102中,将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征;
[0027]在步骤103中,将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。
[0028]在本实施例中,对于步骤101,语音降噪装置将获取的语音信号输入至预处理模块,其中,预处理模块包括对语音信号进行分帧和信号变换,例如,将获取的语音信号分成若干帧,并对语音信号进行一些信号变换,进行信号变换能够使用更有效的音频表示。
[0029]对于步骤102,语音降噪装置将预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征,例如,以相临的5帧对数幅度和归一化相位信息作为输入,输出对应时刻干净语音的梅尔倒谱系数和基频信息F0,其中,声学特征包括对数梅尔谱,线性预测系数(Linear Prediction Coefficients,LPC)、滤波器组系数(Filter banks,FBank),基频(Fundamental Frequency,标记为F0)或者动态信息,例如一阶差,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪方法,包括:将获取的语音信号输入至预处理模块,所述预处理模块对所述语音信号进行分帧和信号变换;将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征;将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。2.根据权利要求1所述的方法,所述声学特征预测网络通过以下方式训练:将带噪语音经过短时傅里叶变换后得到的幅度、相位信息输入所述声学特征预测网络,经过张量运算得到输出;以所述输出和与所述带噪语音对应的干净语音的声学特征的差异,通过反向传播算法优化所述张量运算的权重;通过反复迭代所述优化的过程来减少所述输出和所述带噪语音对应的干净语音声学特征的差异,直到达到规定的迭代次数或所述差异小于预设值。3.根据权利要求2所述的方法,在训练完所述声学特征预测网络之后,所述方法还包括:对训练好的声学特征预测网络联合训练好的声码器模型进行联合,对联合后的网络模型进行训练和微调。4.根据权利要求3所述的方法,其中,所述对训练好的声学特征预测网络联合训练好的声码器模型进行联合,对联合后的网络模型进行训练和微调包括:以所述带噪语音的幅度、相位信息作为所述联合后的网络模型的输入,以与所述带噪语音对应的干净语音的波形作为目标输出,固定所述联合后的网络模型的某一部分参数,对另一部分张量运算参数进行微调。5.根据权利要求1所述的方法,其中,所述将获取的语音信号输入...

【专利技术属性】
技术研发人员:徐学淼俞凯张辉
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1