一种声码器的训练方法、音频合成的方法和装置制造方法及图纸

技术编号：37603432 阅读：18 留言：0更新日期：2023-05-18 11:54

本发明专利技术公开了一种声码器的训练方法、音频合成的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：将训练集样本输入到生成器中，训练集样本包括多个音频特征样本和与每个音频特征样本对应的真实音频；在生成器中，对音频特征样本进行压缩处理，获得压缩后的音频特征样本；对压缩后的音频特征样本进行卷积处理和解压缩处理，获得与音频特征样本对应的生成音频；将与音频特征样本对应的生成音频和真实音频输入到判别器中，基于生成音频和判别音频构造损失函数，基于损失函数训练得到声码器。该实施方式能够增大声码器的感受野，提高了音频质量，并减少了声码器的计算量，提高了声码器的推理速度，从而提升音频的生成效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种声码器的训练方法、音频合成的方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种声码器的训练方法、音频合成的方法和装置。

技术介绍

[0002]语音或音频合成的后端模型包括声学模型和声码器，声学模型用于将语义信息转换成声学特征，声码器用于将声学特征转换成音频信号。为获得更高质量的音频，声码器需要感知较大范围内的信息。
[0003]现有技术中，采用空洞卷积扩大声码器的感受野，以增大声码器的感知范围，主要采用以下方式：一、加大空洞卷积的指数级增长率，但指数级增长率过大会导致棋盘效应，声码器能力变差；二、增加空洞卷积层，但这种方式会导致参数量、计算量增大，声码器推理速度变慢。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种声码器的训练方法、音频合成的方法和装置，能够增大声码器的感受野，提高了音频质量，并减少了声码器的计算量，提高了声码器的推理速度，从而提升音频的生成效率。
[0005]为实现上述目的，根据本专利技术实施例的一个方面，提供了一种声码器的训练方法，包括：<br/>[0006]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声码器的训练方法，其特征在于，包括：将训练集样本输入到生成器中，所述训练集样本包括多个音频特征样本和与每个所述音频特征样本对应的真实音频；在所述生成器中，针对每个所述音频特征样本，对所述音频特征样本进行压缩处理，获得压缩后的音频特征样本；对所述压缩后的音频特征样本进行卷积处理和解压缩处理，获得与所述音频特征样本对应的生成音频；将与所述音频特征样本对应的生成音频和真实音频输入到判别器中，基于所述生成音频和所述真实音频构造损失函数，基于所述损失函数训练得到声码器。2.根据权利要求1所述的训练方法，其特征在于，所述音频特征样本由第一声道数和第一帧数表示，所述压缩处理指示了第一压缩参数；所述压缩后的音频特征样本由第二声道数和第二帧数表示，所述第二声道数根据所述第一压缩参数和所述第一声道数确定，所述第二帧数根据所述第一压缩参数和所述第一帧数确定。3.根据权利要求2所述的训练方法，其特征在于，所述第二声道数为所述第一声道数与所述第一压缩参数相乘的结果，所述第二帧数为所述第一帧数与所述第一压缩参数相除的结果。4.根据权利要求1所述的训练方法，其特征在于，对所述压缩后的音频特征样本经过卷积处理和解压缩处理，获得与所述音频特征样本对应的生成音频，包括：将所述压缩后的音频特征样本送入卷积层，然后送入上采样层和残差网络，再送入卷积层和激活函数层，得到卷积处理后的音频特征样本；对所述卷积处理后的音频特征样本进行解压缩处理，得到所述生成音频。5.根据权利要求4所述的方法，其特征在于，所述解压缩处理指示了第二压缩参数，所述卷积处理后的音频特征样本由第三声道数和第三帧数表示，所述第三声道数为所述第二压缩参数，所述第三帧数根据所述第一帧数、所述第二压缩参数和所述音频特征样本确定，所述生成音频的帧数根据所述第一帧数和所述音频特征样本的窗移确定；所述上采样层为多个，各个上采样尺度的乘积根据所述第三帧数和所述第二帧数确定。6.根据权利要求1所述的方法，其特征在于，将与所述音频特征样本对应的生成音频和真实音频输入到判别器中之前，包括：利用Post

【专利技术属性】
技术研发人员：吴雨璇，宋伟，张政臣，吴友政，何晓冬，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人