音频合成方法、装置、设备和介质制造方法及图纸

技术编号:39727146 阅读:8 留言:0更新日期:2023-12-17 23:31
本公开提供了一种音频合成方法、音频合成装置和设备、计算机可读存储介质以及计算机程序产品。音频合成方法包括:获取用于合成音频的一个或多个声学特征;基于一个或多个声学特征,利用第一音频生成器分别生成周期音频分量和非周期音频分量,并基于周期音频分量和非周期音频分量生成第一初始音频;以及基于第一初始音频和一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频。利用第二音频生成器生成合成音频。利用第二音频生成器生成合成音频。

【技术实现步骤摘要】
音频合成方法、装置、设备和介质


[0001]本公开涉及人工智能领域,并且更具体地涉及一种音频合成方法、音频合成装置和设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]在现今生活中,语音技术(Speech Technology)已被广泛应用。语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)、语音合成技术(Text to Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
[0003]通常,语音合成系统,或者更一般地,音频合成系统可以包括声学模型和声码器两个部分,其中,声学模型的目的是实现从文本到声学特征的映射,声码器的目的则是基于声学特征来合成音频。现有的声码器模型通常基于神经网络,诸如基于生成对抗网络(Generative Adversarial Networks,GAN)来构建,其通过神经网络来建模输入的声学特征到输出音频的隐式映射关系,而缺乏对音频声学特征的建模分析,尤其对于高频分量缺乏有效建模,从而导致合成音频的表现力下降。此外,基于神经网络的声码器模型对于训练数据集以外的声学特征进行音频合成时效果不佳,导致模型泛化能力较差。

技术实现思路

[0004]为此,本公开提供了一种音频合成方法、音频合成装置和设备、计算机可读存储介质以及计算机程序产品。
[0005]根据本公开实施例的一个方面,提供了一种音频合成方法,包括:获取用于合成音频的一个或多个声学特征;基于所述一个或多个声学特征,利用第一音频生成器分别生成周期音频分量和非周期音频分量,并基于所述周期音频分量和所述非周期音频分量生成第一初始音频;以及基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频。
[0006]根据本公开实施例的示例,其中,基于所述周期音频分量和所述非周期音频分量生成第一初始音频包括:通过将所述周期音频分量和所述非周期音频分量相加以生成所述第一初始音频。
[0007]根据本公开实施例的示例,其中,所述第二音频生成器包括多层上采样网络和多层下采样网络,所述多层下采样网络中的各个下采样网络的维度与所述多层上采样网络中的相应上采样网络的维度相对应。
[0008]根据本公开实施例的示例,其中,基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频包括:利用所述多层下采样网络对所述第一初始音频进行多层下采样,以得到多个下采样输出;利用所述多层上采样网络对所述至少一个声学特征进行多层上采样,所述至少一个声学特征作为第一层上采样网络的输入,并且其中,将每一层上采样网络的上采样输出与所述多个下采样输出中对
应的下采样输出进行拼接,并将拼接结果作为其下一层上采样网络的输入;以及基于所述多层上采样网络中的最后一层上采样网络的上采样输出与所述多个下采样输出中对应的下采样输出的拼接结果来生成所述合成音频。
[0009]根据本公开实施例的示例,其中,利用所述多层上采样网络对所述至少一个声学特征进行多层上采样包括:对于每一层上采样网络,利用该层上采样网络对该层上采样网络的输入进行上采样,以生成中间输出;以及对所述中间输出进行频率去混叠处理和周期性激活处理,并基于处理后的中间输出生成该层上采样网络的上采样输出。
[0010]根据本公开实施例的示例,其中,对所述中间输出进行频率去混叠处理和周期性激活处理,并基于处理后的中间输出生成该层上采样网络的上采样输出包括:以预定采样倍率对所述中间输出进行上采样,以得到上采样的中间输出;利用周期性激活函数对所述上采样的中间输出进行周期性激活,以得到周期性激活的中间输出;以所述预定采样倍率对所述周期性激活的中间输出进行下采样,以得到所述处理后的中间输出;以及基于所述处理后的中间输出生成该层上采样网络的上采样输出。
[0011]根据本公开实施例的示例,其中,所述多层下采样网络中的每层下采样网络是离散小波变换网络。
[0012]根据本公开实施例的示例,其中,基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频包括:基于所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成第二初始音频;以及以所述第一初始音频为残差,基于所述第二初始音频生成所述合成音频。
[0013]根据本公开实施例的示例,其中,基于以下方法对所述第一音频生成器和所述第二音频生成器进行预训练:获取多个训练音频,并生成所述多个训练音频中的每个训练音频的一个或多个声学特征;对于每个训练音频的一个或多个声学特征:基于所述一个或多个声学特征,利用所述第一音频生成器分别生成周期音频分量和非周期音频分量,并基于所述周期音频分量和所述非周期音频分量生成第一初始音频;基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用所述第二音频生成器生成合成音频;基于所述训练音频和所述第一初始音频生成第一损失函数,并基于所述训练音频和所述合成音频生成第二损失函数;以及利用所述第一损失函数和所述第二损失函数对所述第一音频生成器和所述第二音频生成器进行预训练。
[0014]根据本公开实施例的示例,其中,所述第一音频生成器和所述第二音频生成器构成生成对抗网络的生成器,所述生成对抗网络还包括至少一个判别器,其中,基于以下方法对所述第一音频生成器和所述第二音频生成器进行联合对抗训练:获取多个训练音频,并生成所述多个训练音频中的每个训练音频的一个或多个声学特征;对于每个训练音频的一个或多个声学特征:基于所述一个或多个声学特征,利用所述第一音频生成器分别生成周期音频分量和非周期音频分量,并基于所述周期音频分量和所述非周期音频分量生成第一初始音频;基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用所述第二音频生成器生成合成音频;基于所述训练音频和所述第一初始音频生成第一损失函数,并基于所述训练音频和所述合成音频生成第二损失函数和所述至少一个判别器的损失函数;以及利用所述第一损失函数、所述第二损失函数和所述至少一个判别器的损失函数,对所述第一音频生成器和所述第二音频生成器进行联合对抗训练。
[0015]根据本公开实施例的示例,其中,所述至少一个判别器包括第一判别器和第二判别器,并且其中,基于所述训练音频和所述合成音频生成所述至少一个判别器的损失函数包括:基于所述训练音频和所述合成音频生成所述第一判别器的损失函数;以及生成所述合成音频的一个或多个声学特征,并基于所述训练音频的一个或多个声学特征与所述合成音频的一个或多个声学特征,生成所述第二判别器的损失函数。
[0016]根据本公开实施例的示例,其中,所述第一音频生成器是基于可微数字信号处理的音频生成器,并且所述第二音频生成器为基于神经网络的声码器模型。
[0017]根据本公开实施例的另一方面,提供了一种音频合成装置,包括:特征获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频合成方法,包括:获取用于合成音频的一个或多个声学特征;基于所述一个或多个声学特征,利用第一音频生成器分别生成周期音频分量和非周期音频分量,并基于所述周期音频分量和所述非周期音频分量生成第一初始音频;以及基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频。2.根据权利要求1所述的音频合成方法,其中,基于所述周期音频分量和所述非周期音频分量生成第一初始音频包括:通过将所述周期音频分量和所述非周期音频分量相加以生成所述第一初始音频。3.根据权利要求1所述的音频合成方法,其中,所述第二音频生成器包括多层上采样网络和多层下采样网络,所述多层下采样网络中的各个下采样网络的维度与所述多层上采样网络中的相应上采样网络的维度相对应。4.根据权利要求3所述的音频合成方法,其中,基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频包括:利用所述多层下采样网络对所述第一初始音频进行多层下采样,以得到多个下采样输出;利用所述多层上采样网络对所述至少一个声学特征进行多层上采样,所述至少一个声学特征作为第一层上采样网络的输入,并且其中,将每一层上采样网络的上采样输出与所述多个下采样输出中对应的下采样输出进行拼接,并将拼接结果作为其下一层上采样网络的输入;以及基于所述多层上采样网络中的最后一层上采样网络的上采样输出与所述多个下采样输出中对应的下采样输出的拼接结果来生成所述合成音频。5.根据权利要求4所述的音频合成方法,其中,利用所述多层上采样网络对所述至少一个声学特征进行多层上采样包括:对于每一层上采样网络,利用该层上采样网络对该层上采样网络的输入进行上采样,以生成中间输出;以及对所述中间输出进行频率去混叠处理和周期性激活处理,并基于处理后的中间输出生成该层上采样网络的上采样输出。6.根据权利要求5所述的音频合成方法,其中,对所述中间输出进行频率去混叠处理和周期性激活处理,并基于处理后的中间输出生成该层上采样网络的上采样输出包括:以预定采样倍率对所述中间输出进行上采样,以得到上采样的中间输出;利用周期性激活函数对所述上采样的中间输出进行周期性激活,以得到周期性激活的中间输出;以所述预定采样倍率对所述周期性激活的中间输出进行下采样,以得到所述处理后的中间输出;以及基于所述处理后的中间输出生成该层上采样网络的上采样输出。7.根据权利要求3所述的音频合成方法,其中,所述多层下采样网络中的每层下采样网络是离散小波变换网络。8.根据权利要求1所述的音频合成方法,其中,基于所述第一初始音频和所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成合成音频包括:
基于所述一个或多个声学特征中的至少一个声学特征,利用第二音频生成器生成第二初始音频;以及以所述第一初始音频为残差,基于所述第二初始音频生成所述合成音频。9.根据权利要求1所述的音频合成方法,其中,基于以下方法对所述第一音频生成器和所述第二音频生成器进行预训练:获取多个训练音频,并生成所述多个训练音频中的每个训练音频的一个或多个声学特征;对于每个训练音频的一个或多个声学特征:基于所述一个或多个声学特征,利用所述第一音频生成器分别生成周期音频分量...

【专利技术属性】
技术研发人员:吴志勇李思磐刘颂湘李翔卞衍尧翁超
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1