声音变换模型的训练方法、声音变换方法以及电子设备技术

技术编号：40085243 阅读：6 留言：0更新日期：2024-01-23 15:21

本申请公开了一种声音变换模型的训练方法、声音变换方法、装置以及电子设备。该方法包括：获取训练样本，训练样本包括第一对象的声音信号的基频、对应第一对象的声音信号的第一频谱特征以及第二对象的身份信息，第一对象与第二对象不同；将第二对象的身份信息、第一频谱特征以及基频输入生成网络，得到对应第二对象的第二频谱特征；将第二频谱特征输入判别网络，得到目标预测概率；根据判别网络输出的目标预测概率，反向交替调整生成网络和判别网络的参数。根据本申请的方法，不需要对训练样本进行处理来获得平行数据，节省了大量的数据处理时间，提高了声音变换模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频信息处理，更具体地，涉及一种声音变换模型的训练方法、声音变换方法、装置以及电子设备。

技术介绍

1、歌声是人类情感表达和交流的重要方式，歌声变换是指在不改变演唱内容的前提下，将演唱者的声音从源演唱者变换到目标演唱者。歌声变换在教育、娱乐、辅助作曲、人工智能等方面都有广泛的应用前景。

2、目前，可以通过训练样本对神经网络模型进行训练，得到声音变换模型，然后通过训练获得的声音变换模型对目标歌声进行歌声变换，得到变换后的歌声。但是，基于训练样本对神经网络模型进行训练时，训练过程复杂度较高，导致声音变换模型的训练效率较低。

技术实现思路

1、有鉴于此，本申请实施例提出了一种声音变换模型的训练方法、声音变换方法、装置以及电子设备。

2、第一方面，本申请实施例提供了一种声音变换模型的训练方法，所述声音变换模型包括生成网络和判别网络，方法包括：获取训练样本，所述训练样本包括第一对象的声音信号的基频、对应所述第一对象的声音信号的第一频谱特征以及第二对象的身份信息，所述第一对象与所述第二对象不同；将所述第二对象的身份信息、所述第一频谱特征以及所述基频输入所述生成网络，得到对应所述第二对象的第二频谱特征；将所述第二频谱特征输入所述判别网络，得到目标预测概率，所述目标预测概率包括所述判别网络预测第二频谱特征为第一类声音信号的频谱特征的概率以及所述判别网络预测所述第二频谱特征为第二类声音信号的频谱特征的概率；根据所述判别网络输出的目标预测概率，反向交替调整所述生成网络和所述判别网络的参数。

3、第二方面，本申请实施例提供了一种声音变换方法，所述方法包括：从待变换音频信号中提取目标对象的声音信号；从所述目标对象的声音信号中提取频谱特征、基频和周期参数；将所述频谱特征输入声音变换模型，得到变换后的频谱特征，所述声音变换模型由上述声音变换模型的训练方法训练得到；根据所述变换后的频谱特征、所述基频和所述周期参数，得到变换声音信号。

4、第三方面，本申请实施例提供了一种声音变换模型的训练装置，所述声音变换模型包括生成网络和判别网络，装置包括：样本获取模块，用于获取训练样本，所述训练样本包括第一对象的声音信号的基频、对应所述第一对象的声音信号的第一频谱特征以及第二对象的身份信息，所述第一对象与所述第二对象不同；第一得到模块，用于将所述第二对象的身份信息、所述第一频谱特征以及所述基频输入所述生成网络，得到对应所述第二对象的第二频谱特征；第二得到模块，用于将所述第二频谱特征输入所述判别网络，得到目标预测概率，所述目标预测概率包括所述判别网络预测第二频谱特征为第一类声音信号的频谱特征的概率以及所述判别网络预测所述第二频谱特征为第二类声音信号的频谱特征的概率；训练模块，用于根据所述判别网络输出的目标预测概率，反向交替调整所述生成网络和所述判别网络的参数。

5、可选地，装置还包括原始身份信息获得模块，用于将所述第一频谱特征输入所述判别网络，得到原始预测概率和原始身份信息，所述原始预测概率包括所述判别网络预测第一频谱特征为第一类声音信号的频谱特征的概率以及所述判别网络预测所述第一频谱特征为第二类声音信号的频谱特征的概率，所述原始身份信息包括所述判别网络预测所述第一频谱特征所对应的身份信息；训练模块，还用于根据所述判别网络输出的目标预测概率、原始预测概率以及原始身份信息，反向交替调整所述生成网络和所述判别网络的参数。

6、可选地，所述训练模块，还用于若所述判别网络输出的目标预测概率、原始预测概率以及原始身份信息不满足第一预设条件，固定所述生成网络的参数；根据第一优化目标、所述判别网络输出的目标预测概率、原始预测概率以及原始身份信息，调整所述判别网络的参数，直到所述判别网络满足第二预设条件，固定所述判别网络的参数；根据第二优化目标、所述判别网络输出的目标预测概率、原始预测概率以及原始身份信息，调整所述生成网络的参数，直到所述生成网络满足第三预设条件；重复上述步骤，直至所述判别网络输出的目标预测概率、原始预测概率以及原始身份信息满足第一预设条件。

7、可选地，所述第一得到模块，还用于将所述第一频谱特征输入所述生成网络中的编码器，得到对应所述第一频谱特征的均值和方差；根据所述均值和所述方差，进行隐变量空间采样操作，得到隐变量采样结果；将所述隐变量采样结果、所述第二对象的身份信息和所述基频输入所述生成网络中的解码器，得到对应所述第二对象的第二频谱特征。

8、第四方面，本申请实施例提供了一种声音变换装置，所述装置包括：获取模块，用于从待变换音频信号中提取目标对象的声音信号；提取模块，用于从所述目标对象的声音信号中提取频谱特征、基频和周期参数；第三得到模块，用于将所述频谱特征输入声音变换模型，得到变换后的频谱特征，所述声音变换模型由上述声音变换模型的训练方法训练得到；第四得到模块，用于根据所述变换后的频谱特征、所述基频和所述周期参数，得到变换声音信号。

9、可选地，装置还包括音频变换模块，用于获取外界声音信号，所述外界声音信号为所述待变换音频信号中除所述目标对象的声音信号以外的声音信号；将所述外界声音信号和所述变换声音信号进行叠加，得到对应所述待变换音频信号的目标音频信号。

10、第五方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

11、第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

12、第七方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

13、本申请实施例提供的一种声音变换模型的训练方法、声音变换方法、装置以及电子设备，通过生成网络基于第一频谱特征，得到第二频谱特征，并根据判别网络针对第二频谱的目标预测概率训练所述生成网络和所述判别网络，使得用于训练判别网络和生成网络的训练样本可以是非平行数据，从而不需要对训练样本进行处理来获得平行数据，节省了大量的数据处理时间，提高了声音变换模型的训练效率。

本文档来自技高网...

【技术保护点】

1.一种声音变换模型的训练方法，其特征在于，所述声音变换模型包括生成网络和判别网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述判别网络输出的目标预测概率，反向交替调整所述生成网络和所述判别网络的参数之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述判别网络输出的目标预测概率、原始预测概率以及原始身份信息，反向交替调整所述生成网络和所述判别网络的参数，包括：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，所述将所述第二对象的身份信息、所述第一频谱特征以及所述基频输入所述生成网络，得到对应所述第二对象的第二频谱特征，包括：

6.一种声音变换方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述得到变换声音信号之后，所述方法还包括：

8.一种声音变换模型的训练装置，其特征在于，所述声音变换模型包括生成网络和判别网络，所述装置包括：

9.一种声音变换装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种声音变换模型的训练方法，其特征在于，所述声音变换模型包括生成网络和判别网络，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求1所...

【专利技术属性】
技术研发人员：白宁，
申请(专利权)人：上海游密信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人