音色转换模型的训练方法、音色转换方法、装置及设备制造方法及图纸

技术编号:38485487 阅读:18 留言:0更新日期:2023-08-15 17:01
本申请公开了一种音色转换模型的训练方法、音色转换方法、装置及设备,涉及音频处理技术领域。该方法包括:获取样本音频的音频内容信息、音频特征信息和声纹特征;将上述音频内容信息、音频特征信息和声纹特征,输入至音色转换模型,由音色转换模型输出预测的声学特征;根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型。通过使用上述多种音频特征,对音色转换模型进行训练,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。而且,上述针对音色转换模型的训练过程,是一个自监督的训练过程,无需依赖人工标注等其他处理流程,对于训练音色转换模型非常方便。模型非常方便。模型非常方便。

【技术实现步骤摘要】
音色转换模型的训练方法、音色转换方法、装置及设备


[0001]本申请涉及音频处理
,特别涉及一种音色转换模型的训练方法、音色转换方法、装置及设备。

技术介绍

[0002]语音转换技术是一种将某一个发音人所说的音频内容,转换到另一个发音人的音色上的语音算法技术。本申请主要涉及说话语音的音色转换。
[0003]语音转换的技术类型可以分为两类:一是只保留发音人A的音频内容信息,转换后的音频由发音人B的发音节奏(每个字的发音时间)和发音特点(音调高低、音量高低、声音起伏等)来表达该内容信息;二是完全保留发音人A在音频中的内容信息、发音节奏和发音特点等,转换后只是用发音人B的音色声纹来表达该音频,通俗的说即将发音人B的音色“套”在该音频上。本申请主要针对上述第二种语音转换技术。
[0004]然而,目前针对上述第二种语音转换技术,其转换效果还需进一步提升。

技术实现思路

[0005]本申请实施例提供了一种音色转换模型的训练方法、音色转换方法、装置及设备。本申请实施例提供的技术方案如下:
[0006]根据本申请实施例的一个方面,提供了一种音色转换模型的训练方法,所述方法包括:
[0007]获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点;
[0008]将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;
[0009]根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
[0010]根据本申请实施例的一个方面,提供了一种音色转换方法,所述方法包括:
[0011]获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;
[0012]将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;
[0013]根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
[0014]根据本申请实施例的一个方面,提供了一种音色转换模型的训练装置,所述装置包括:
[0015]获取模块,用于获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频
的发音特点;
[0016]处理模块,用于将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;
[0017]调整模块,用于根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。
[0018]根据本申请实施例的一个方面,提供了一种音色转换装置,所述装置包括:
[0019]获取模块,用于获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;
[0020]处理模块,用于将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;
[0021]生成模块,用于根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
[0022]根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述音色转换模型的训练方法,或者实现上述音色转换方法。
[0023]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述音色转换模型的训练方法,或者实现上述音色转换方法。
[0024]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序以实现上述音色转换模型的训练方法,或者实现上述音色转换方法。
[0025]本申请实施例提供的技术方案至少包括如下有益效果:
[0026]通过获取样本音频的音频内容信息、音频特征信息和声纹特征,将样本音频的上述信息输入至音色转换模型,由该音色转换模型输出预测的声学特征,然后根据预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型的参数进行调整,得到训练后的音色转换模型;通过使用上述多种音频特征,对音色转换模型进行训练,使得采用该模型转换得到的音频与目标音色相似度更高,且发音质量更好。而且,上述针对音色转换模型的训练过程,是一个自监督的训练过程,无需依赖人工标注等其他处理流程,对于训练音色转换模型非常方便。
附图说明
[0027]图1是本申请一个实施例提供的方案实施环境的示意图;
[0028]图2是本申请一个实施例提供的语音转换系统的示意图;
[0029]图3是本申请一个实施例提供的音色转换模型的训练方法的流程图;
[0030]图4是本申请一个实施例提供的音色转换模型的训练过程的示意图;
[0031]图5是本申请一个实施例提供的音色转换方法的流程图;
[0032]图6是本申请一个实施例提供的音色转换模型的训练装置的框图;
[0033]图7是本申请一个实施例提供的音色转换装置的框图;
[0034]图8是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
[0035]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0036]请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图,该方案实施环境可以包括:模型训练设备10和模型使用设备20。
[0037]模型训练设备10可以是诸如个人计算机、电脑、平板电脑、服务器、智能机器人等电子设备,或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对音色转换模型15进行训练。在一些实施例中,模型训练设备10可以采用机器学习的方式对音色转换模型15进行训练,以使其具备较好的性能。在模型训练过程中,获取样本音频的音频内容信息、音频特征信息和声纹特征,将样本音频的上述信息输入至音色转换模型15,由音色转换模型15输出预测的声学特征,然后根据该预测的声学特征和样本音频的声学特征之间的差异,对音色转换模型15的参数进行调整,得到训练后的音色转换模型15。对于上述音色转换模型15的具体训练过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音色转换模型的训练方法,其特征在于,所述方法包括:获取样本音频的音频内容信息、音频特征信息和声纹特征,所述音频内容信息用于表征所述样本音频的音频内容,所述音频特征信息用于表征所述样本音频的发音特点;将所述音频内容信息、所述音频特征信息和所述声纹特征,输入至音色转换模型,由所述音色转换模型输出预测的声学特征;根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。2.根据权利要求1所述的方法,其特征在于,所述获取样本音频的音频内容信息,包括:获取所述样本音频的声学特征;对所述样本音频的声学特征进行数据增强处理,得到增强后的声学特征;将所述增强后的声学特征输入至音频内容获取模型,由所述音频内容获取模型输出所述样本音频的音频内容信息。3.根据权利要求2所述的方法,其特征在于,所述数据增强处理包括以下至少之一:基频变化、共振峰变化、能量变化。4.根据权利要求1所述的方法,其特征在于,所述音频特征信息包括:第一特征信息,用于表征所述样本音频的基频的变化情况;第二特征信息,用于表征所述样本音频的轻辅音的变化情况。5.根据权利要求4所述的方法,其特征在于,所述获取样本音频的音频特征信息,包括:将所述样本音频划分为多个音频片段;获取所述多个音频片段各自的基频;对于每一个音频片段,根据所述音频片段的基频,以及所述多个音频片段各自的基频的平均值,确定所述音频片段的基频变化量;根据所述多个音频片段各自的基频变化量,得到所述第一特征信息;对于每一个音频片段,根据所述音频片段的基频,确定所述音频片段的轻辅音特征值,所述轻辅音特征值用于表征所述音频片段属于轻音片段或辅音片段;根据所述多个音频片段各自的轻辅音特征值,得到所述第二特征信息。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述预测的声学特征和所述样本音频的声学特征之间的差异,对所述音色转换模型的参数进行调整,得到训练后的音色转换模型,包括:根据所述预测的声学特征和所述样本音频的声学特征之间的差异,计算损失函数值;根据所述损失函数值对所述音色转换模型的参数进行调整,得到训练后的音色转换模型。7.一种音色转换方法,其特征在于,所述方法包括:获取第一音频的音频内容信息和音频特征信息,所述音频内容信息用于表征所述第一音频的音频内容,所述音频特征信息用于表征所述第一音频的发音特点;将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征,输入至音色转换模型,由所述音色转换模型输出声学特征;根据所述声学特征生成第二音频,所述第二音频是保留所述第一音频的音频内容和发音特点,并将所述第一音频的音色转换为所述目标音色之后的音频。
8.根据权利要求7所述的方法,其特...

【专利技术属性】
技术研发人员:黄杰雄关迪聆轩晓光吴东海陈传艺
申请(专利权)人:广州世音联软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1