【技术实现步骤摘要】
一种模型训练以及音色转换方法、装置、设备及介质
[0001]本专利技术涉及自然语言理解
,尤其涉及一种模型训练以及音色转换方法、装置、设备及介质。
技术介绍
[0002]音色转换技术是音频领域中一项重要的技术,广泛运用于音频内容生成、娱乐音频制作和保密通话等领域。音色转换技术是指将原始音频中的声音的音色转换为另外一个的说话人声音的音色。在音色转换过程中,需要保证转换音色之后的音频的音色与另外一个说话人声音的音色相似,而音频的内容保持不变。音色转换技术的难点在于如何保持原始音频的内容信息的同时进行音色变换。
[0003]有鉴于此,如何进行音色转换,获得稳定的音色转换效果,是亟待解决的技术问题。
技术实现思路
[0004]本专利技术实施例提供了一种模型训练以及音色转换方法、装置、设备及介质,用以解决现有音色转换的转换效果差,降低了音色转换的可靠性的问题。
[0005]本专利技术实施例提供了一种音色转换模型训练方法,所述方法包括:
[0006]获取样本集;其中,所述样本集中包含有不同发音人的样本音频数据,每个所述样本音频数据分别对应有目标音频数据,所述目标音频数据与所述样本音频数据的语义信息相同;
[0007]对于任一所述样本音频数据,通过原始音色转换模型中的音色提取网络,获取所述样本音频数据的第一音色特征;通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征;其中,所述第一语义特征为所述样本音频数据中与发音
【技术保护点】
【技术特征摘要】
1.一种音色转换模型训练方法,其特征在于,所述方法包括:获取样本集;其中,所述样本集中包含有不同发音人的样本音频数据,每个所述样本音频数据分别对应有目标音频数据,所述目标音频数据与所述样本音频数据的语义信息相同;对于任一所述样本音频数据,通过原始音色转换模型中的音色提取网络,获取所述样本音频数据的第一音色特征;通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征;其中,所述第一语义特征为所述样本音频数据中与发音人音色无关,且与语义信息有关的特征;通过所述原始音色转换模型中的声码器,基于所述第一语义特征以及所述样本音频数据对应的目标音频数据的第二音色特征,获取合成音频数据;基于每个所述样本音频数据分别对应的目标音频数据以及合成音频数据,对所述原始音色转换模型进行训练,以获取训练完成的音色转换模型。2.根据权利要求1所述的方法,其特征在于,所述样本音频数据对应的目标音频数据包括以下中的至少一种:所述样本音频数据、与所述样本音频数据的发音人不同的样本音频数据、以及与所述样本音频数据的发音人不同的非样本音频数据。3.根据权利要求2所述的方法,其特征在于,获取所述样本音频数据对应的目标音频数据的第二音色特征,包括:若所述目标音频数据为所述样本音频数据,则将所述样本音频数据的第一音色特征,确定为所述第二音色特征;若所述目标音频数据不为所述样本音频数据,则通过所述原始音色转换模型中的音色提取网络,获取所述目标音频数据的第二音色特征。4.根据权利要求1所述的方法,其特征在于,所述通过所述原始音色转换模型中的去除音色网络,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取第一语义特征,包括:通过所述去除音色网络中的后验编码器,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取所述样本音频数据中语义信息的隐向量;通过所述去除音色网络中的增强子网络,基于所述隐向量,获取所述第一语义特征。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对于任一所述样本音频数据,通过所述原始音色转换模型中的语义提取网络,基于所述样本音频数据,获取第二语义特征;所述基于每个所述样本音频数据分别对应的目标音频数据以及合成音频数据,对所述原始音色转换模型进行训练,包括:基于每个所述样本音频数据分别对应的目标音频数据及每个所述样本音频数据分别对应的合成音频数据,以及每个所述样本音频数据分别对应的第一语义特征及每个所述样本音频数据分别对应的第二语义特征,对所述原始音色转换模型进行训练,以获取训练完成的音色转换模型。6.根据权利要求5所述的方法,其特征在于,所述通过所述原始音色转换模型中的语义提取网络,基于所述样本音频数据,获取第二语义特征,包括:通过所述语义提取网络中的第一内容子网络,基于所述样本音频数据,获取内容特征;
通过所述语义提取网络中的第二内容子网络,基于所述内容特征,获取离散化内容特征;通过所述语义提取网络中的第三内容子网络,基于所述离散化内容特征,获取所述第二语义特征。7.根据权利要求5或6所述的方法,其特征在于,所述基于每个所述样本音频数据分别对应的目标音频数据及每个所述样本音频数据分别对应的合成音频数据,以及每个所述样本音频数据分别对应的第一语义特征及每个所述样本音频数据分别对应的第二语义特征,对所述原始音色转换模型进行训练,包括:基于每个所述样本音频数据分别对应的目标音频数据及每个所述样本音频数据分别对应的合成音频数据,确定重构损失值;基于每个所述样本音频数据分别对应的第一语义特征以及每个所述样本音频数据分别对应的第二语义特征,确定语义损失值;根据所述重构损失值以及所述语义损失值,确定综合损失值;根据所述综合损失值,对所述原始音色转换模型中的参数的参数值进行调整,以获取训练完成的音色转换模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:通过所述去除音色网络中的后验编码器,基于所述第一音色特征以及所述样本音频数据对应的线性频谱,获取所述隐向量的均值向量以及方差向量;所述基于每个所述样本音频数据分别对应的第一语义特征以及每个所述样本音频数据分别对应的第二语义特征,确定语义损失值,包括:基于每个所述样本音频数据分别对应的第一语义特征、第二语义特征、均值向量以及方差向量,确定语义损失值。9.根据权利...
【专利技术属性】
技术研发人员:黄家鸿,李玉乐,项伟,
申请(专利权)人:广州市百果园网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。