语音转换方法、模型训练方法、设备、介质及程序产品技术

技术编号：41192681 阅读：2 留言：0更新日期：2024-05-07 22:22

本发明专利技术涉及语音处理技术领域，具体是一种语音转换方法、模型训练方法、设备、介质及程序产品，所述语音转换方法用于电子设备，包括：确定待转换的目标语音及与所述目标语音对应的内容表示向量；其中，所述目标语音具有第一内容和第一声纹，所述内容表示向量基于所述目标语音的语音波形得到；确定参考语音及与所述参考语音对应的声纹表示向量，所述参考语音具有第二声纹，所述第二声纹与所述第一声纹不同；根据所述内容表示向量和所述声纹表示向量，基于语音生成器生成转换语音；其中，所述转换语音具有第一内容和第二声纹；其中，所述语音生成器是通过利用具有第二声纹的训练语音对预设的语音生成网络和判别器网络进行联合训练得到的。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及语音处理，特别涉及一种语音转换方法、模型训练方法、设备、介质及程序产品。

技术介绍

1、游戏中常常会出现各种类型的非玩家角色，为了提高游戏玩家体验，这些游戏角色通常由配音演员根据脚本进行配音。针对使用不同语言的游戏玩家，由于原始配音演员不可能精通所有语言，因此一个游戏往往需要聘请不同语言的替代配音演员，这将耗费大量配音的时间，且花费较大。借助语音转换技术，即可实现使用配音演员的声音为不同语言版本的游戏角色配音。

2、语音转换技术旨在将源语音转换成配音演员的声音，即将配音演员的声纹克隆至源语音，使得生成的目标语音听起来像是配音演员在说与源语音同样的内容。根据转换使用的源/参考语音数据是否平行可将语音转换技术分为两类：平行转换技术及非平行转换技术。平行转换技术要求源说话者和配音演员说同样的内容，非平行转换技术则无此要求。然而，对于跨语言的语音转换技术，只能使用非平行语音数据。

3、目前，跨语言语音转换主要通过对源语音进行分析得到对应的语音学特征，再借助声码器将频域特征变换为时域波形，这种方法容易出现在实际进行语音转换的时候输入声码器的语音学特征与声码器训练时所用的语音学特征失配的问题。

4、随着人工智能的发展，目前也有许多基于神经网络模型的语音转换方法出现，例如基于循环生成对抗网络(cycle generative adversarial network，cyclegan)或者变分自编码器(variableauto-encoder，vae)的语音转换方法。但由于语音具有高度周期性，且

技术实现思路

1、针对现有技术的上述问题，本专利技术的目的在于提供一种语音转换方法、模型训练方法、设备、介质及程序产品，能够避免将语音学特征转换为时域波形时的特征失配问题，从而提高语音转换的准确性。

2、为了解决上述问题，本专利技术提供一种语音转换方法，用于电子设备，所述方法包括：

3、内容表示向量确定步骤，确定待转换的目标语音及与所述目标语音对应的内容表示向量；其中，所述目标语音具有第一内容和第一声纹，所述内容表示向量基于所述目标语音的语音波形得到；

4、声纹表示向量确定步骤，确定参考语音及与所述参考语音对应的声纹表示向量，所述参考语音具有第二声纹，所述第二声纹与所述第一声纹不同；

5、语音转换步骤，根据所述内容表示向量和所述声纹表示向量，基于语音生成器生成转换语音；其中，所述转换语音具有第一内容和第二声纹；

6、其中，所述语音生成器是通过利用具有第二声纹的训练语音对预设的语音生成网络和判别器网络进行联合训练得到的。

7、进一步地，所述语音生成器是通过利用所述训练语音，基于第一损失函数和第二损失函数对所述语音生成网络和所述判别器网络进行联合训练得到的；

8、其中，所述第一损失函数的值为根据所述训练语音对应的训练转换语音计算得到的，所述第二损失函数的值为将所述训练语音及其对应的训练转换语音输入所述判别器网络进行判别并计算得到的，所述训练转换语音为将所述训练语音对应的训练内容表示向量和训练声纹表示向量输入所述语音生成网络得到的，所述训练内容表示向量根据所述训练语音的语音波形得到。

9、可选地，所述内容表示向量确定步骤包括：

10、确定所述目标语音的语音波形；

11、将所述目标语音的语音波形输入内容编码器得到对应的内容表示向量。

12、可选地，所述声纹表示向量确定步骤包括：

13、提取所述参考语音的梅尔谱特征；

14、将所述梅尔谱特征输入声纹编码器得到对应的均值向量和方差对角矩阵；

15、根据所述均值向量和所述方差对角矩阵确定所述参考语音对应的声纹表示向量。

16、可选地，所述方法进一步包括：

17、将所述声纹表示向量进行1×1卷积，得到一个或者多个卷积后的声纹表示向量；

18、其中，每个所述卷积后的声纹表示向量的维度至少与所述语音生成器中的一个解码器的输入维度相同；

19、所述语音转换步骤包括：

20、将所述内容表示向量和所述一个或者多个卷积后的声纹表示向量输入所述语音生成器，得到所述转换语音。

21、进一步地，所述参考语音具有第二内容，所述第二内容与所述第一内容不同。

22、本专利技术另一方面提供一种模型训练方法，用于电子设备，所述方法包括：

23、训练语音获取步骤，获取具有第二声纹的多个训练语音；

24、训练表示向量确定步骤，确定各个所述训练语音对应的训练内容表示向量和训练声纹表示向量，所述训练内容表示向量基于所述训练语音的语音波形得到；

25、训练语音转换步骤，将各个所述训练语音对应的训练内容表示向量和训练声纹表示向量输入预设的语音生成网络，得到对应的训练转换语音；

26、第一计算步骤，基于所述训练转换语音计算第一损失函数的值；

27、第二计算步骤，将各个所述训练语音及其对应的训练转换语音输入预设的判别器网络进行判别，并计算第二损失函数的值；

28、参数更新步骤，基于所述第一损失函数的值更新所述语音生成网络的网络参数，并基于所述第二损失函数的值更新所述判别器网络的网络参数；

29、迭代训练步骤，基于更新参数后的所述语音生成网络和所述判别器网络进行迭代训练，直至所述第一损失函数的值和所述第二损失函数的值均符合模型收敛条件；

30、生成器确定步骤，将训练完成后的所述语音生成网络作为语音生成器。

31、可选地，所述训练表示向量确定步骤包括：

32、基于预设的内容编码网络确定各个所述训练语音对应的训练内容表示向量；

33、基于预设的声纹编码网络确定各个所述训练语音对应的训练声纹表示向量；

34、所述模型训练方法还包括：

35、基于所述第一损失函数的值更新所述内容编码网络和所述声纹编码网络的网络参数；以及，

36、将训练完成后的所述内容编码网络作为内容编码器，将训练完成后的所述声纹编码网络作为声纹编码器。

37、可选地，所述内容编码网络和所述声纹编码网络均为基于注意力机制的编码网络，所述语音生成网络为基于注意力机制的解码网络。

38、可选地，所述内容编码网络包括多个transformer编码器，所述声纹编码网络包括多个transformer编码器以及平均池化层，所述语音生成网络包括多个transformer解码器，所述判别器网络包括多个判别器。

39、本专利技术另一方面提供一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现如上述的语音转换方法或者模型训练方法。

40、本专利技术另一方面提供一种计算本文档来自技高网...

【技术保护点】

1.一种语音转换方法，用于电子设备，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音生成器是通过利用所述训练语音，基于第一损失函数和第二损失函数对所述语音生成网络和所述判别器网络进行联合训练得到的；

3.根据权利要求1所述的方法，其特征在于，所述内容表示向量确定步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述声纹表示向量确定步骤包括：

5.根据权利要求1或4所述的方法，其特征在于，所述方法进一步包括：

6.根据权利要求1所述的方法，其特征在于，所述参考语音具有第二内容，所述第二内容与所述第一内容不同。

7.一种模型训练方法，用于电子设备，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述训练表示向量确定步骤包括：

9.根据权利要求8所述的方法，其特征在于，所述内容编码网络和所述声纹编码网络均为基于注意力机制的编码网络，所述语音生成网络为基于注意力机制的解码网络。

10.根据权利要求9所述的方法，其特征在于，所述内容编码网络包括

11.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-6任意一项所述的语音转换方法的步骤或者权利要求7-10任意一项所述的模型训练方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-6任意一项所述的语音转换方法的步骤或者权利要求7-10任意一项所述的模型训练方法的步骤。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-6任意一项所述的语音转换方法的步骤或者权利要求7-10任意一项所述的模型训练方法的步骤。

...

【技术特征摘要】
【国外来华专利技术】