生成语音增强模型的方法和设备以及语音增强方法和设备技术

技术编号:32500071 阅读:16 留言:0更新日期:2022-03-02 10:08
本申请公开了一种用于生成语音增强模型的方法,其包括:获取音频训练数据;获取第一模型和第二模型,其中第一模型为深度神经网络模型,第二模型在运行时的资源占用少于第一模型;基于音频训练数据训练第一模型和所述第二模型,其包括:从输入音频获取帧长为M的第一音频;将第一音频输入至第一模型进行处理以获得第一输出结果;从输入音频获取帧长为N的第二音频,第二音频在第一音频之后,并且N<M;将第二音频和第一输出结果输入至第二模型进行处理以获得第二输出结果;和基于第二输出结果与输出音频更新第一模型和第二模型的参数以获得训练后的第一模型和训练后的第二模型;以及基于训练后的第一模型和训练后的第二模型生成语音增强模型。成语音增强模型。成语音增强模型。

【技术实现步骤摘要】
生成语音增强模型的方法和设备以及语音增强方法和设备


[0001]本申请涉及音频处理技术,更具体地,涉及一种用于生成语音增强模型的方法和设备,以及一种语音增强方法和设备。

技术介绍

[0002]语音增强是指当语音信号被各种噪声干扰、甚至淹没时,抑制或降低噪声干扰并从音频信号中提取有用语音信号的技术。语音增强广泛地应用于诸如移动电话、视频或电话会议系统、语音识别以及助听器等领域。近年来,随着神经网络技术的广泛使用,深度神经网络技术应用于语音增强给语音增强技术带来了显著的提升。然而,传统的深度神经网络模型通常需要帧长超过8毫秒(例如,10毫秒或者16毫秒)的音频作为输入,加上算法本身的延迟,使得总延迟会超过20毫秒。过长的延迟使得深度神经网络模型无法应用于对实时性要求较高的设备(例如,助听器)。此外,深度神经网络模型的高计算量也限制了其在低功耗设备中的应用。
[0003]因此,有必要提供一种语音增强模型来解决现有技术存在的上述问题。

技术实现思路

[0004]本申请的一个目的在于提供一种生成语音增强模型的方法和装置,以及使用该语音增强模型进行语音增强的方法和装置,其兼具低功耗和低延时的特点。
[0005]在本申请的一个方面,提供了一种用于生成语音增强模型的方法。所述用于生成语音增强模型的方法包括:获取音频训练数据,所述音频训练数据包括有噪声的输入音频和与所述有噪声的输入音频相对应的无噪声的输出音频;获取第一模型和第二模型,其中所述第一模型为深度神经网络模型,所述第二模型在运行时的资源占用少于所述第一模型;基于所述音频训练数据训练所述第一模型和所述第二模型,其包括:从所述输入音频获取帧长为M的第一音频;将所述第一音频输入至所述第一模型进行处理,以获得第一输出结果;从所述输入音频获取帧长为N的第二音频,所述第二音频在所述第一音频之后,并且N<M;将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果;和基于所述第二输出结果与所述输出音频更新所述第一模型和所述第二模型的参数以获得训练后的第一模型和训练后的第二模型;以及基于所述训练后的第一模型和所述训练后的第二模型生成语音增强模型。
[0006]在本申请的另一方面,还提供了一种用于生成语音增强模型的设备。所述用于生成语音增强模型的设备包括:处理器;和存储装置,用于存储能够在所述处理器上运行的计算机程序;其中,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述的用于生成语音增强模型的方法。
[0007]在本申请的另一方面,还提供了一种非易失性计算机可读存储介质。所述非易失性计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的用于生成语音增强模型的方法。
[0008]在本申请的另一方面,还提供了一种语音增强方法。所述语音增强方法包括:获取音频数据;获取语音增强模型,所述语音增强模型包括第一模型和第二模型,所述第一模型为深度神经网络模型,并且所述第二模型在运行时的资源占用少于所述第一模型;使用所述语音增强模型对所述音频数据进行处理以削弱或去除所述音频数据中的噪声信号,其包括:从所述音频数据获取帧长为M的第一音频;将所述第一音频输入至所述第一模型进行处理,以获得第一输出结果;从所述输入音频获取帧长为N的第二音频,所述第二音频在所述第一音频之后,并且N<M;和将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果;以及输出所述第二输出结果作为增强后的音频数据。
[0009]在本申请的另一方面,还提供了一种语音增强设备。所述语音增强设备包括:处理器;和存储装置,用于存储能够在所述处理器上运行的计算机程序;其中,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述的语音增强方法。
[0010]在本申请的另一方面,还提供了一种非易失性计算机可读存储介质。所述非易失性计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音增强方法。
[0011]以上为本申请的概述,可能有简化、概括和省略细节的情况,因此本领域的技术人员应该认识到,该部分仅是示例说明性的,而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征,也非旨在用作为确定所要求保护主题的范围的辅助手段。
附图说明
[0012]通过下面说明书和所附的权利要求书并与附图结合,将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更加明确和详细地说明。
[0013]图1示出了一种卷积循环神经网络的结构框图;
[0014]图2示出了一种RNNoise模型的结构框图;
[0015]图3示出了根据本申请一实施例的用于生成语音增强模型的方法的流程图;
[0016]图4示出了根据本申请一实施例的基于音频训练数据训练第一模型和第二模型的方法的流程图;
[0017]图5示出了本申请一实施例在执行图4的方法时第一模型和第二模型处理各音频数据帧的示意图;
[0018]图6示出了根据本申请另一实施例的基于音频训练数据训练第一模型和第二模型的方法的流程图;
[0019]图7示出了本申请一实施例在执行图6的方法时第一模型和第二模型处理各音频数据帧的示意图;
[0020]图8示出了根据本申请一实施例的语音增强方法的流程图;
[0021]图9示出了本申请一实施例在执行图8的方法时第一模型和第二模型处理各音频数据帧的示意图;
[0022]图10示出了本申请另一实施例在执行图8的方法时第一模型和第二模型处理各音
频数据帧的示意图。
具体实施方式
[0023]在下面的详细描述中,参考了构成其一部分的附图。在附图中,类似的符号通常表示类似的组成部分,除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下,可以采用其他实施方式,并且可以做出其他变化。可以理解,可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合,设计,而所有这些都明确地构成本申请内容的一部分。
[0024]参考图1,其示出了一种卷积循环神经网络(CRNN:Convolutional Recurrent Neural Network)10的结构框图。
[0025]卷积循环神经网络是由卷积神经网络(CNN:Convolutional Neural Network)和循环神经网络(RNN:Recurrent Neural Network)结合得到的一种神经网络。如图1所示,卷积循环神经网络10通常包括CNN模块110、RNN模块120和联结时序分类(CTC:Connectionist Temporal Classification)模块130。具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于生成语音增强模型的方法,其特征在于,所述用于生成语音增强模型的方法包括:获取音频训练数据,所述音频训练数据包括有噪声的输入音频和与所述有噪声的输入音频相对应的无噪声的输出音频;获取第一模型和第二模型,其中所述第一模型为深度神经网络模型,所述第二模型在运行时的资源占用少于所述第一模型;基于所述音频训练数据训练所述第一模型和所述第二模型,其包括:从所述输入音频获取帧长为M的第一音频;将所述第一音频输入至所述第一模型进行处理,以获得第一输出结果;从所述输入音频获取帧长为N的第二音频,所述第二音频在所述第一音频之后,并且N<M;将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果;和基于所述第二输出结果与所述输出音频更新所述第一模型和所述第二模型的参数以获得训练后的第一模型和训练后的第二模型;以及基于所述训练后的第一模型和所述训练后的第二模型生成语音增强模型。2.根据权利要求1所述的方法,其特征在于,所述第二模型为深度神经网络模型,并且所述第二模型的参数少于所述第一模型的参数。3.根据权利要求2所述的方法,其特征在于,所述第二模型的参数与所述第一模型的参数的数量比小于1/2。4.根据权利要求2所述的方法,其特征在于,所述第一模型为卷积循环神经网络模型,所述第二模型为RNNoise模型。5.根据权利要求2所述的方法,其特征在于,基于所述音频训练数据训练所述第一模型和所述第二模型还包括:从所述输入音频获取所述第二音频之前的帧长为P的第三音频;和将所述第三音频与所述第二音频组合形成帧长为P+N的第四音频;其中,将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果包括:将所述第四音频与所述第一输出结果输入至所述第二模型进行处理以获得帧长为P+N的中间输出结果;从所述中间输出结果中获取与所述第二音频对应的长度为N的结果作为所述第二输出结果。6.根据权利要求1所述的方法,其特征在于,所述第二模型包括数字信号处理模型和简化的神经网络模型。7.根据权利要求6所述的方法,其特征在于,所述第二模型包括能量频谱估计模型和全连接层。8.根据权利要求6所述的方法,其特征在于,将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果包括:将所述第二音频输入至所述数字信号处理模型进行处理,以获得中间输出结果;以及
将所述中间输出结果和所述第一输出结果输入至所述简化的神经网络模型进行处理以获得所述第二输出结果。9.根据权利要求1所述的方法,其特征在于,M=K
×
N,K为大于1的整数。10.根据权利要求9所述的方法,其特征在于,在基于所述音频训练数据训练所述第一模型和所述第二模型的过程中,从所述输入音频获取所述第一音频之后的连续K个帧长为N的第二音频,将所述K个第二音频依次地与所述第一输出结果一起输入至所述第二模型进行处理以获得K个第二输出结果,并且基于所述K个第二输出结果与所述输出音频更新所述第一模型和所述第二模型的参数以获得所述训练后的第一模型和所述训练后的第二模型。11.根据权利要求1所述的方法,其特征在于,基于所述音频训练数据训练所述第一模型和所述第二模型的步骤多次迭代执行,其中,在所述迭代执行过程中,将前一次训练中产生的所述训练后的第一模型和所述训练后的第二模型的参数的更新值分别赋值给后一次训练中训练前的第一模型和训练前的第二模型使用。12.一种用于生成语音增强模型的设备,其特征在于,包括:处理器;和存储装置,用于存储能够在所述处理器上运行的计算机程序;其中,当所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1

11中任一项所述的用...

【专利技术属性】
技术研发人员:陆丛希李林锴周昊帅袁宇帆孙鸿程
申请(专利权)人:上海又为智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1