多频带同步神经声码器制造技术

技术编号:31684518 阅读:16 留言:0更新日期:2022-01-01 10:33
本申请的装置和方法包括:接收将由多频带同步神经声码器进行处理的输入音频信号。将所述输入音频信号分离成多个频带。获取与所述多个频带对应的多个音频信号。对所述多个音频信号中的每个音频信号进行下采样。由所述多频带同步神经声码器,处理下采样的音频信号。生成音频输出信号。音频输出信号。

【技术实现步骤摘要】
【国外来华专利技术】多频带同步神经声码器
[0001]相关申请的交叉引用
[0002]本申请要求于2019年9月20日提交美国专利局、申请号为16/576,943的美国正式申请的优先权,其全部内容通过引用结合在本申请中。

技术介绍

[0003]Wavenet是第一个神经声码器并且由谷歌提供。为了提高Wavenet的推理速度,谷歌后来提供了并行的Wavenet。尽管并行的Wavenet的速度明显优于原始的Wavenet,但是,并行的Wavenet在推理时需要大量图形处理单元(GPU)(或大量中央处理单元(CPU))来执行并行计算,这在计算上极其昂贵,并且在实际生产系统中应用受限。随后,提供了WaveRNN模型,并且显著地减少了推理时间。然而,推理速度仍然相当慢。

技术实现思路

[0004]根据本申请实施例,一种由多频带同步神经声码器执行的方法,包括:接收将由所述多频带同步神经声码器进行处理的输入音频信号;由所述多频带同步神经声码器,将所述输入音频信号分离成多个频带;基于将所述输入音频信号分离成所述多个频带,由所述多频带同步神经声码器,获取与所述多个频带对应的多个音频信号;基于获取所述多个音频信号,由所述多频带同步神经声码器,对所述多个音频信号中的每个音频信号进行下采样;由所述多频带同步神经声码器,处理下采样的音频信号;及,由所述多频带同步神经声码器,基于处理下采样的音频信号,生成音频输出信号。
[0005]根据本申请实施例,一种多频带同步神经声码器设备,包括:至少一个存储器,用于存储计算机程序代码;至少一个处理器,用于读取所述计算机程序代码,根据所述计算机程序代码的指令进行操作,所述程计算机序代码包括:接收代码,用于使得所述至少一个处理器,接收将由所述多频带同步神经声码器进行处理的输入音频信号;分离代码,用于使得所述至少一个处理器,由所述多频带同步神经声码器,将所述输入音频信号分离成多个频带;获取代码,用于使得所述至少一个处理器,基于将所述输入音频信号分离成所述多个频带,由所述多频带同步神经声码器,获取与所述多个频带对应的多个音频信号;下采样代码,用于使得所述至少一个处理器,基于获取所述多个音频信号,由所述多频带同步神经声码器,对所述多个音频信号中的每个音频信号进行下采样;处理代码,用于使得所述至少一个处理器,由所述多频带同步神经声码器,处理下采样的音频信号;及,生成代码,用于使得所述至少一个处理器,由所述多频带同步神经声码器,基于处理下采样的音频信号,生成音频输出信号。
[0006]根据本申请实施例,一种非易失性计算机可读介质,其上存储有计算机代码,所述计算机代码由至少一个处理器执行时,使得所述至少一个处理器对点云信息进行编码,包括:接收将由所述多频带同步神经声码器进行处理的输入音频信号;由所述多频带同步神经声码器,将所述输入音频信号分离成多个频带;基于将所述输入音频信号分离成所述多个频带,由所述多频带同步神经声码器,获取与所述多个频带对应的多个音频信号;基于获
取所述多个音频信号,由所述多频带同步神经声码器,对所述多个音频信号中的每个音频信号进行下采样;由所述多频带同步神经声码器,处理下采样的音频信号;及,由所述多频带同步神经声码器,基于处理下采样的音频信号,生成音频输出信号。
附图说明
[0007]图1A和图1B示出了根据本申请实施例的概览图;
[0008]图2示出了本申请所实施的系统和/或方法中的示例环境的示意图;
[0009]图3示出了图2中至少一个设备的示例部件;
[0010]图4示出了根据本申请实施例的由多频带同步神经声码器生成音频输出信号的示例流程图。
具体实施方式
[0011]近来,诸如Wavenet、WaveRNN和LPCNet之类的神经声码器逐帧地生成原始音频样本,并且能够基于对声学特征的估计,实现了优于传统声码器的高度自然的语音。
[0012]然而,在实际生产系统上应用神经声码器时,主要挑战是基于它们的推理(inference)速度。大多数神经声码器被设计成以自回归方式预测每个音频样本,并且,即使是一秒钟的语音/音频,也有数万个可能需要推理的样本,这明显地抑制了推理速度。已经进行了大量的工程努力来提高神经声码器的效率,但是,在许多生产系统中推理速度仍然不够快。
[0013]在本申请中,提供了一种多频带同步神经声码器,其将音频分离成多个频带(例如,n个频带),并对每个频带中的信号进行m次下采样。神经声码器被配置为利用单个CPU同时预测来自每个频带的样本。由于每个频带中的信号被下采样m次,推理样本也被减少m倍,因此,本申请实施例能够显著加快推理时的速度。因此,本申请实施例,提高了诸如WaveNet、WaveRNN和LPC

Net等神经声码器的语音/音频生成速度。
[0014]根据本申请实施例,提供了一种快速、高效且高质量的音频生成方法。所提出的多频带音频生成系统,可以将神经声码器的音频/语音生成速度提高4至6倍,而不牺牲所生成的音频质量。
[0015]图1A和图1B是本申请描述的实施例的概览图。如图1A和图1B所示,神经声码器是一种自回归模型,其在给定预测样本的历史的情况下递归地预测目标音频的每个样本。
[0016]如图1A所示,音频信号输入105被提供给神经声码器110。神经声码器110基于音频信号输入105生成音频/语音波形115。如图1A中进一步所示,在小于时间(T)的时间(t)将输入120提供到神经声码器125中。神经声码器125生成输出,并在时间(T)提供输出130。
[0017]在本申请实施例所述的多频带同步方法中,音频信号被分离成多个等距的频带。此外,训练每个频带中的信号以预测为单独的流。此外,基于奈奎斯特定理,每个频带中的信号可以被下采样n次而不会丢失信息。
[0018]因此,每个频带中的样本数目比原始音频信号少n倍。此外,本申请实施例同时预测所有n个频带中的样本,因此,将整个推理的步骤减少n倍。此外,除了最终的全连接层以及softmax层,其中每个频带具有其自己的全连接层和对应的softmax层之外,神经声码器中大多数的层用于预测所有频带中的样本。
[0019]通过在所有频带上共享大部分权重参数,多频带神经声码器的单步推理的计算仅稍高于常规神经声码器的计算,但总的推理步骤小n倍。因此,本申请实施例提供了一种明显更快的多频带神经声码器。
[0020]本申请实施例所提出的多频带音频生成系统,可以将神经声码器的音频/语音生成速度提高4~6倍,而不牺牲所生成的音频质量。
[0021]例如,如图1B所示,输入135被提供给神经声码器140。神经声码器145将输入135分离成一组不同频带的信号145、150和155。此外,神经声码器145对每个信号145、150和155进行下采样。
[0022]如图1B中进一步所示,神经声码器140可以使用一组上采样滤波器160、165和170对每个信号进行上采样。此外,神经声码器140可以使用合成滤波器175来合成分离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由多频带同步神经声码器执行的方法,其特征在于,包括:接收将由所述多频带同步神经声码器进行处理的输入音频信号;由所述多频带同步神经声码器,将所述输入音频信号分离成多个频带;基于将所述输入音频信号分离成所述多个频带,由所述多频带同步神经声码器,获取与所述多个频带对应的多个音频信号;基于获取所述多个音频信号,由所述多频带同步神经声码器,对所述多个音频信号中的每个音频信号进行下采样;由所述多频带同步神经声码器,处理下采样的音频信号;及,由所述多频带同步神经声码器,基于处理下采样的音频信号,生成音频输出信号。2.根据权利要求1所述的方法,其特征在于,同时处理所述多个频带中每个频带的下采样的音频信号。3.根据权利要求1所述的方法,其特征在于,使用单个处理单元,处理所述多个频带中每个频带的下采样的音频信号。4.根据权利要求1所述的方法,其特征在于,所述神经声码器为WaveNet声码器。5.根据权利要求1所述的方法,其特征在于,所述神经声码器为WaveRNN声码器。6.根据权利要求1所述的方法,其特征在于,所述神经声码器为LPCNet声码器。7.根据权利要求1所述的方法,其特征在于,进一步包括:对每个处理后的音频信号进行上采样;基于每个上采样后的处理后的音频信号,生成所述音频输出信号。8.一种多频带同步神经声码器设备,其特征在于,包括:至少一个存储器,用于存储计算机程序代码;至少一个处理器,用于读取所述计算机程序代码,根据所述计算机程序代码的指令进行操作,所述程计算机序代码包括:接收代码,用于使得所述至少一个处理器,接收将由所述多频带同步神经声码器进行处理的输入音频信号;分离代码,用于使得所述至少一个处理器,由所述多频带同步神经声码器,将所述输入音频信号分离成多个频带;获取代码,用于使得所述至少一个处理器,基于将所述输入音频信号分离成所述多个频带,由所述多频带同步神经声码器,获取与所述多个频带对应的多个音频信号;下采样代码,用于使得所述至少一个处理器,基于获取所述多个音频信号,由所述多频带同步神经声码器,对所述多个音频信号中的每个音频信号进行下采样;处理代码,用于使得所述至少一个处理器,由所述多频带同步神经声码器,处理下采样的音频信号;及,生成代码,用于使得所述至少一个处理器,由所述多频带同步...

【专利技术属性】
技术研发人员:俞承柱于蒙卢恒俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1