一种模型训练以及音色转换方法、装置、设备及介质制造方法及图纸

技术编号:33090174 阅读:15 留言:0更新日期:2022-04-15 11:02
本发明专利技术公开了一种模型训练以及音色转换方法、装置、设备及介质。由于通过该音色提取网络可以获取到输入的样本音频数据的第一音色特征,从而准确地获取到输入的样本音频数据的音色信息,有利于后续根据该音色特征获取合成音频数据,提高合成音频数据的音色的准确性,通过该去除音色网络,基于该第一音色特征,可以获取到该样本音频数据的第一语义特征,实现了准确地获取到样本音频数据中与发音人音色无关,且与发音内容有关的特征,从而有利于后续根据该第一语义特征获取合成音频数据,保证合成音频数据的发音内容的准确性。获取到训练完成的音色转换模型后,通过该音色转换模型进行音色转换,可以提高音色转换的转换效果以及可靠性。可靠性。可靠性。

【技术实现步骤摘要】
一种模型训练以及音色转换方法、装置、设备及介质


[0001]本专利技术涉及自然语言理解
,尤其涉及一种模型训练以及音色转换方法、装置、设备及介质。

技术介绍

[0002]音色转换技术是音频领域中一项重要的技术,广泛运用于音频内容生成、娱乐音频制作和保密通话等领域。音色转换技术是指将原始音频中的声音的音色转换为另外一个的说话人声音的音色。在音色转换过程中,需要保证转换音色之后的音频的音色与另外一个说话人声音的音色相似,而音频的内容保持不变。音色转换技术的难点在于如何保持原始音频的内容信息的同时进行音色变换。
[0003]有鉴于此,如何进行音色转换,获得稳定的音色转换效果,是亟待解决的技术问题。

技术实现思路

[0004]本专利技术实施例提供了一种模型训练以及音色转换方法、装置、设备及介质,用以解决现有音色转换的转换效果差,降低了音色转换的可靠性的问题。
[0005]本专利技术实施例提供了一种音色转换模型训练方法,所述方法包括:
[0006]获取样本集;其中,所述样本集中包含有不同发音人的样本音频数据,每个所述样本音频数据分别对应有目标音频数据,所述目标音频数据与所述样本音频数据的语义信息相同;
[0007]对于任一所述样本音频数据,通过原始音色转换模型中的音色提取网络,获取所述样本音频数据的第一音色特征;通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征;其中,所述第一语义特征为所述样本音频数据中与发音人音色无关,且与语义信息有关的特征;通过所述原始音色转换模型中的声码器,基于所述第一语义特征以及所述样本音频数据对应的目标音频数据的第二音色特征,获取合成音频数据;
[0008]基于每个所述样本音频数据分别对应的目标音频数据以及合成音频数据,对所述原始音色转换模型进行训练,以获取训练完成的音色转换模型。
[0009]本专利技术实施例提供了一种音色转换方法,所述方法包括:
[0010]获取源音频数据以及目标发音人的音色特征;
[0011]通过预先训练的音色转换模型中的音色提取网络,获取所述源音频数据的音色特征;通过所述音色转换模型中的去除音色网络,基于所述音色特征以及所述源音频数据对应的线性频谱,获取语义特征;其中,所述语义特征为所述源音频数据中与发音人音色无关,且与语义信息有关的特征;通过所述音色转换模型中的声码器,基于所述语义特征以及所述目标发音人的音色特征,获取合成音频数据。
[0012]本专利技术实施例提供了一种音色转换模型训练装置,所述装置包括:
[0013]获取单元,用于获取样本集;其中,所述样本集中包含有不同发音人的样本音频数据,每个所述样本音频数据分别对应有目标音频数据,所述目标音频数据与所述样本音频数据的语义信息相同;
[0014]处理单元,用于对于任一所述样本音频数据,通过原始音色转换模型中的音色提取网络,获取所述样本音频数据的第一音色特征;通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征;其中,所述第一语义特征为所述样本音频数据中与发音人音色无关,且与语义信息有关的特征;通过所述原始音色转换模型中的声码器,基于所述第一语义特征以及所述样本音频数据对应的目标音频数据的第二音色特征,获取合成音频数据;
[0015]训练单元,用于基于每个所述样本音频数据分别对应的目标音频数据以及合成音频数据,对所述原始音色转换模型进行训练,以获取训练完成的音色转换模型。
[0016]本专利技术实施例提供了一种音色转换装置,所述装置包括:
[0017]获取模块,用于获取源音频数据以及目标发音人的音色特征;
[0018]合成模块,用于通过预先训练的音色转换模型中的音色提取网络,获取所述源音频数据的音色特征;通过所述音色转换模型中的去除音色网络,基于所述音色特征以及所述源音频数据对应的线性频谱,获取语义特征;其中,所述语义特征为所述源音频数据中与发音人音色无关,且与语义信息有关的特征;通过所述音色转换模型中的声码器,基于所述语义特征以及所述目标发音人的音色特征,获取合成音频数据。
[0019]本专利技术实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述音色转换模型训练方法的步骤,或者,实现如上述所述音色转换方法的步骤。
[0020]本专利技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述音色转换模型训练方法的步骤,或者,实现如上述所述音色转换方法的步骤。
[0021]由于在对音色转换模型进行训练的过程中,无需预先对样本集中的样本音频数据进行标注,减少了对样本音频数据进行标注所耗费的成本,方便后续基于样本集中的样本音频数据对音色转换模型的训练。由于原始音色转换模型中包括音色提取网络、去除音色网络以及声码器,通过该音色提取网络可以获取到输入的样本音频数据的第一音色特征,从而准确地获取到输入的样本音频数据的音色信息,有利于后续根据该音色特征获取合成音频数据,提高合成音频数据的音色的准确性,通过该去除音色网络,基于该第一音色特征,可以获取到输入的样本音频数据的第一语义特征,实现了准确地获取到样本音频数据中与发音人音色无关,且与发音内容有关的特征,从而有利于后续根据该第一语义特征获取合成音频数据,保证合成音频数据的发音内容的准确性。通过该声码器,基于该第一语义特征以及该样本音频数据对应的目标音频数据的第二音色特征,即可获取到合成音频数据。基于每个样本音频数据分别对应的目标音频数据以及合成音频数据,即可对原始音色转换模型进行训练,以获取训练完成的音色转换模型,实现了无监督训练音色转换模型,极大降低了获取音色转换模型的难度。后续基于训练完成的音色转换模型进行音色转换,可以提高音色转换的转换效果以及可靠性。
附图说明
[0022]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本专利技术实施例提供的一种音色转换模型训练过程示意图;
[0024]图2为本专利技术实施例提供的一种音色转换模型的结构示意图;
[0025]图3为本专利技术实施例提供了一种音色转换过程示意图;
[0026]图4为本专利技术实施例提供的一种音色转换模型的结构示意图;
[0027]图5为本专利技术实施例提供的一种音色转换模型训练装置的结构示意图;
[0028]图6为本专利技术实施例提供的一种音色转换装置的结构示意图;
[0029]图7为本专利技术实施例提供的一种电子设备结构示意图;
[0030]图8为本专利技术实施例提供的再一种电子设备结构示意图。
具体实施方式
...

【技术保护点】

【技术特征摘要】
1.一种音色转换模型训练方法,其特征在于,所述方法包括:获取样本集;其中,所述样本集中包含有不同发音人的样本音频数据,每个所述样本音频数据分别对应有目标音频数据,所述目标音频数据与所述样本音频数据的语义信息相同;对于任一所述样本音频数据,通过原始音色转换模型中的音色提取网络,获取所述样本音频数据的第一音色特征;通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征;其中,所述第一语义特征为所述样本音频数据中与发音人音色无关,且与语义信息有关的特征;通过所述原始音色转换模型中的声码器,基于所述第一语义特征以及所述样本音频数据对应的目标音频数据的第二音色特征,获取合成音频数据;基于每个所述样本音频数据分别对应的目标音频数据以及合成音频数据,对所述原始音色转换模型进行训练,以获取训练完成的音色转换模型。2.根据权利要求1所述的方法,其特征在于,所述样本音频数据对应的目标音频数据包括以下中的至少一种:所述样本音频数据、与所述样本音频数据的发音人不同的样本音频数据、以及与所述样本音频数据的发音人不同的非样本音频数据。3.根据权利要求2所述的方法,其特征在于,获取所述样本音频数据对应的目标音频数据的第二音色特征,包括:若所述目标音频数据为所述样本音频数据,则将所述样本音频数据的第一音色特征,确定为所述第二音色特征;若所述目标音频数据不为所述样本音频数据,则通过所述原始音色转换模型中的音色提取网络,获取所述目标音频数据的第二音色特征。4.根据权利要求1所述的方法,其特征在于,所述通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征,包括:通过所述去除音色网络中的后验编码器,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取所述样本音频数据中语义信息的隐向量;通过所述去除音色网络中的增强子网络,基于所述隐向量,获取所述第一语义特征。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对于任一所述样本音频数据,通过所述原始音色转换模型中的语义提取网络,基于所述样本音频数据,获取第二语义特征;所述基于每个所述样本音频数据分别对应的目标音频数据以及合成音频数据,对所述原始音色转换模型进行训练,包括:基于每个所述样本音频数据分别对应的目标音频数据及每个所述样本音频数据分别对应的合成音频数据,以及每个所述样本音频数据分别对应的第一语义特征及每个所述样本音频数据分别对应的第二语义特征,对所述原始音色转换模型进行训练,以获取训练完成的音色转换模型。6.根据权利要求5所述的方法,其特征在于,所述通过所述原始音色转换模型中的语义提取网络,基于所述样本音频数据,获取第二语义特征,包括:通过所述语义提取网络中的第一内容子网络,基于所述样本音频数据,获取内容特征;
通过所述语义提取网络中的第二内容子网络,基于所述内容特征,获取离散化内容特征;通过所述语义提取网络中的第三内容子网络,基于所述离散化内容特征,获取所述第二语义特征。7.根据权利要求5或6所述的方法,其特征在于,所述基于每个所述样本音频数据分别对应的目标音频数据及每个所述样本音频数据分别对应的合成音频数据,以及每个所述样本音频数据分别对应的第一语义特征及每个所述样本音频数据分别对应的第二语义特征,对所述原始音色转换模型进行训练,包括:基于每个所述样本音频数据分别对应的目标音频数据及每个所述样本音频数据分别对应的合成音频数据,确定重构损失值;基于每个所述样本音频数据分别对应的第一语义特征以及每个所述样本音频数据分别对应的第二语义特征,确定语义损失值;根据所述重构损失值以及所述语义损失值,确定综合损失值;根据所述综合损失值,对所述原始音色转换模型中的参数的参数值进行调整,以获取训练完成的音色转换模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:通过所述去除音色网络中的后验编码器,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取所述隐向量的均值向量以及方差向量;所述基于每个所述样本音频数据分别对应的第一语义特征以及每个所述样本音频数据分别对应的第二语义特征,确定语义损失值,包括:基于每个所述样本音频数据分别对应的第一语义特征、第二语义特征、均值向量以及方差向量,确定语义损失值。9.根据权利...

【专利技术属性】
技术研发人员:黄家鸿李玉乐项伟
申请(专利权)人:广州市百果园网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1