一种声码器的训练方法、音频合成的方法和装置制造方法及图纸

技术编号:37603432 阅读:9 留言:0更新日期:2023-05-18 11:54
本发明专利技术公开了一种声码器的训练方法、音频合成的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将训练集样本输入到生成器中,训练集样本包括多个音频特征样本和与每个音频特征样本对应的真实音频;在生成器中,对音频特征样本进行压缩处理,获得压缩后的音频特征样本;对压缩后的音频特征样本进行卷积处理和解压缩处理,获得与音频特征样本对应的生成音频;将与音频特征样本对应的生成音频和真实音频输入到判别器中,基于生成音频和判别音频构造损失函数,基于损失函数训练得到声码器。该实施方式能够增大声码器的感受野,提高了音频质量,并减少了声码器的计算量,提高了声码器的推理速度,从而提升音频的生成效率。率。率。

【技术实现步骤摘要】
一种声码器的训练方法、音频合成的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种声码器的训练方法、音频合成的方法和装置。

技术介绍

[0002]语音或音频合成的后端模型包括声学模型和声码器,声学模型用于将语义信息转换成声学特征,声码器用于将声学特征转换成音频信号。为获得更高质量的音频,声码器需要感知较大范围内的信息。
[0003]现有技术中,采用空洞卷积扩大声码器的感受野,以增大声码器的感知范围,主要采用以下方式:一、加大空洞卷积的指数级增长率,但指数级增长率过大会导致棋盘效应,声码器能力变差;二、增加空洞卷积层,但这种方式会导致参数量、计算量增大,声码器推理速度变慢。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种声码器的训练方法、音频合成的方法和装置,能够增大声码器的感受野,提高了音频质量,并减少了声码器的计算量,提高了声码器的推理速度,从而提升音频的生成效率。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种声码器的训练方法,包括:
[0006]将训练集样本输入到生成器中,所述训练集样本包括多个音频特征样本和与每个所述音频特征样本对应的真实音频;
[0007]在所述生成器中,针对每个所述音频特征样本,对所述音频特征样本进行压缩处理,获得压缩后的音频特征样本;
[0008]对所述压缩后的音频特征样本进行卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频;
[0009]将与所述音频特征样本对应的生成音频和真实音频输入到判别器中,基于所述生成音频和所述真实音频构造损失函数,基于所述损失函数训练得到声码器。
[0010]可选地,所述音频特征样本由第一声道数和第一帧数表示,所述压缩处理指示了第一压缩参数;所述压缩后的音频特征样本由第二声道数和第二帧数表示,所述第二声道数根据所述第一压缩参数和所述第一声道数确定,所述第二帧数根据所述第一压缩参数和所述第一帧数确定。
[0011]可选地,所述第二声道数为所述第一声道数与所述第一压缩参数相乘的结果,所述第二帧数为所述第一帧数与所述第一压缩参数相除的结果。
[0012]可选地,对所述压缩后的音频特征样本经过卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频,包括:
[0013]将所述压缩后的音频特征样本送入卷积层,然后送入上采样层和残差网络,再送
入卷积层和激活函数层,得到卷积处理后的音频特征样本;
[0014]对所述卷积处理后的音频特征样本进行解压缩处理,得到所述生成音频。
[0015]可选地,所述解压缩处理指示了第二压缩参数,所述卷积处理后的音频特征样本由第三声道数和第三帧数表示,所述第三声道数为所述第二压缩参数,所述第三帧数根据所述第一帧数、所述第二压缩参数和所述音频特征样本确定,所述生成音频的帧数根据所述第一帧数和所述音频特征样本的窗移确定;
[0016]所述上采样层为多个,各个上采样尺度的乘积根据所述第三帧数和所述第二帧数确定。
[0017]可选地,将与所述音频特征样本对应的生成音频和真实音频输入到判别器中之前,包括:
[0018]利用Post

Net网络对所述生成音频进行修正,获得修正后的生成音频,所述Post

Net网络包括卷积层、残差网络以及卷积层和激活函数层。
[0019]可选地,所述损失函数包括生成器损失和判别器损失,所述生成器损失包括短时傅里叶变换损失、特征图损失和对抗损失,所述判别器损失包括生成损失和真实损失。
[0020]本专利技术实施例的另一方面,提供了一种音频合成的方法,包括:
[0021]获取目标音频特征;
[0022]将所述目标音频特征输入到声码器中,获得与所述目标音频特征对应的目标音频;
[0023]其中,所述声码器是根据本专利技术实施例的声码器的训练方法获得的。
[0024]根据本专利技术实施例的再一个方面,提供了一种声码器的训练装置,包括:
[0025]获取模块,将训练集样本输入到生成器中,所述训练集样本包括多个音频特征样本和与每个所述音频特征样本对应的真实音频;
[0026]压缩模块,在所述生成器中,针对每个所述音频特征样本,对所述音频特征样本进行压缩处理,获得压缩后的音频特征样本;
[0027]生成模块,对所述压缩后的音频特征样本经过卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频;
[0028]判别模块,将所述音频特征样本、与所述音频特征样本对应的生成音频和真实音频输入到判别器中,基于所述生成音频和所述真实音频构造损失函数,基于所述损失函数训练得到声码器。
[0029]根据本专利技术实施例的再一个方面,提供了一种音频合成的装置,包括:
[0030]获取模块,获取目标音频特征;
[0031]合成模块,将所述目标音频特征输入到声码器中,获得与所述目标音频特征对应的目标音频;
[0032]其中,所述声码器是根据本专利技术实施例的声码器的训练方法获得的。
[0033]根据本专利技术实施例的另一个方面,提供了一种电子设备,包括:
[0034]一个或多个处理器;
[0035]存储装置,用于存储一个或多个程序,
[0036]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术提供的声码器的训练方法或音频合成的方法。
[0037]根据本专利技术实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术提供的声码器的训练方法或音频合成的方法。
[0038]上述专利技术中的一个实施例具有如下优点或有益效果:通过生成器对音频特征样本进行压缩处理,然后经过卷积处理和解压缩处理,得到与音频特征样本对应的生成音频,然后根据与音频特征样本对应的生成音频和真实音频输入到判别器中,并基于生成音频和真实音频构造损失函数,训练得到声码器,采用压缩处理的方式能够增大声码器的感受野,提高了音频质量,并减少了声码器的计算量,提高了声码器的推理速度,从而提升音频的生成效率。
[0039]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0040]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0041]图1是根据本专利技术实施例的一种声码器的训练方法的主要流程的示意图;
[0042]图2是根据本专利技术实施例的一种对音频特征进行压缩处理和解压缩处理的过程的示意图;
[0043]图3是根据本专利技术实施例的一种音频合成的方法的主要流程的示意图;
[0044]图4是根据本专利技术实施例的声码器的训练装置的主要模块的示意图;
[0045]图5是根据本专利技术实施例的音频合成的装置的主要模块的示意图;
[0046]图6是本专利技术实施例可以应用于其中的示例性系统架构图;...

【技术保护点】

【技术特征摘要】
1.一种声码器的训练方法,其特征在于,包括:将训练集样本输入到生成器中,所述训练集样本包括多个音频特征样本和与每个所述音频特征样本对应的真实音频;在所述生成器中,针对每个所述音频特征样本,对所述音频特征样本进行压缩处理,获得压缩后的音频特征样本;对所述压缩后的音频特征样本进行卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频;将与所述音频特征样本对应的生成音频和真实音频输入到判别器中,基于所述生成音频和所述真实音频构造损失函数,基于所述损失函数训练得到声码器。2.根据权利要求1所述的训练方法,其特征在于,所述音频特征样本由第一声道数和第一帧数表示,所述压缩处理指示了第一压缩参数;所述压缩后的音频特征样本由第二声道数和第二帧数表示,所述第二声道数根据所述第一压缩参数和所述第一声道数确定,所述第二帧数根据所述第一压缩参数和所述第一帧数确定。3.根据权利要求2所述的训练方法,其特征在于,所述第二声道数为所述第一声道数与所述第一压缩参数相乘的结果,所述第二帧数为所述第一帧数与所述第一压缩参数相除的结果。4.根据权利要求1所述的训练方法,其特征在于,对所述压缩后的音频特征样本经过卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频,包括:将所述压缩后的音频特征样本送入卷积层,然后送入上采样层和残差网络,再送入卷积层和激活函数层,得到卷积处理后的音频特征样本;对所述卷积处理后的音频特征样本进行解压缩处理,得到所述生成音频。5.根据权利要求4所述的方法,其特征在于,所述解压缩处理指示了第二压缩参数,所述卷积处理后的音频特征样本由第三声道数和第三帧数表示,所述第三声道数为所述第二压缩参数,所述第三帧数根据所述第一帧数、所述第二压缩参数和所述音频特征样本确定,所述生成音频的帧数根据所述第一帧数和所述音频特征样本的窗移确定;所述上采样层为多个,各个上采样尺度的乘积根据所述第三帧数和所述第二帧数确定。6.根据权利要求1所述的方法,其特征在于,将与所述音频特征样本对应的生成音频和真实音频输入到判别器中之前,包括:利用Post

【专利技术属性】
技术研发人员:吴雨璇宋伟张政臣吴友政何晓冬
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1