个性化语音转换训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:28492523 阅读:20 留言:0更新日期:2021-05-19 22:18
本发明专利技术提供一种个性化语音转换训练方法,包括获取的N个说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;获取特定说话人的语音平行语料并分别与所述N个说话人的语音平行语料进行组合,得到N组训练语音数据;基于N组训练语音数据对所述语音转换平均模型进行训练,得到特定语音转换平均模型;获取目标说话人的第一样本语音数据,获取特定说话人对应的第二样本语音数据,并对特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。此外,本申请还涉及一种个性化语音转换训练装置、计算机设备及存储介质。设备及存储介质。设备及存储介质。

【技术实现步骤摘要】
个性化语音转换训练方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机
,尤其是涉及一种个性化语音转换训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点收到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。为了使合成的语音更加清晰、自然、富有表现力,现有的语音合成系统一般都会选择一个目标说话人,录制这个目标说话人的大量的发音数据,并将这些发音数据作为语音合成的基础数据。这种方式的优点在于,合成语音的音质、音色会与发音人本身发出的语音更为相似,其清晰度和自然度会大大提高,但缺点在于,需要获取目标说话人的大量样本语音数据,这些样本语音数据的采集工作会耗费大量的物力、财力,从而使得更进一步的为每个个人用户都制作独特的个性化语音合成模型变得非常困难。

技术实现思路

[0003]基于此,有必要针对上述问题,提供一种只需要采集目标说话人少量样本语音数据的个性化语音转换训练方法、装置、计算机设备及存储介质。
[0004]第一方面,本专利技术提供一种个性化语音转换训练方法,该方法包括:
[0005]获取语音语料库中的语音语料数据,该语音语料数据包括:N个说话人的语音平行语料,语音平行语料是指多个人的语音语料对应相同的语音文本内容;
[0006]基于N个人说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;
[0007]获取特定说话人的语音平行语料,将该特定说话人的语音平行语料分别与N个说话人的语音平行语料进行组合,得到N组训练语音数据;
[0008]基于N组训练语音数据对语音转换平均模型进行训练,得到特定语音转换平均模型;
[0009]获取目标说话人的第一样本语音数据,获取特定说话人对应的第二样本语音数据,该第一样本语音数据和该第二样本语音数据对应的文本内容相同,第一样本语音数据的规模远小于语音平行语料的规模;
[0010]基于第一样本语音数据和第二样本语音数据对特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。
[0011]第二方面,本专利技术提供一种个性化语音转换训练装置,所属装置包括:
[0012]第一获取模块,用于获取语音语料库中的语音语料数据,语音语料数据包括:N个说话人的语音平行语料,语音平行语料是指多个人的语音语料对应相同的语音文本内容;
[0013]第一训练模块,用于基于N个人说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;
[0014]第二获取模块,用于获取特定说话人的语音平行语料,将特定说话人的语音平行语料分别与N个说话人的语音平行语料进行组合,得到N组训练语音数据;
[0015]第二训练模块,用于基于N组训练语音数据对语音转换平均模型进行训练,得到特定语音转换平均模型;
[0016]第三获取模块,用于获取目标说话人的第一样本语音数据,获取特定说话人对应的第二样本语音数据,第一样本语音数据和第二样本语音数据对应的文本内容相同,第一样本语音数据的规模远小于语音平行语料的规模;
[0017]第三训练模块,用于基于第一样本语音数据和第二样本语音数据对特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。
[0018]第三方面,本专利技术提供一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该计算机程序被该处理器执行时,使得该处理器执行如下步骤:
[0019]获取语音语料库中的语音语料数据,语音语料数据包括:N个说话人的语音平行语料,语音平行语料是指多个人的语音语料对应相同的语音文本内容;
[0020]基于N个人说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;
[0021]获取特定说话人的语音平行语料,将特定说话人的语音平行语料分别与N个说话人的语音平行语料进行组合,得到N组训练语音数据;
[0022]基于N组训练语音数据对语音转换平均模型进行训练,得到特定语音转换平均模型;
[0023]获取目标说话人的第一样本语音数据,获取特定说话人对应的第二样本语音数据,第一样本语音数据和第二样本语音数据对应的文本内容相同,第一样本语音数据的规模远小于语音平行语料的规模;
[0024]基于第一样本语音数据和第二样本语音数据对特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。
[0025]第四方面,本专利技术提供一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时,使得该处理器执行如下步骤:
[0026]获取语音语料库中的语音语料数据,语音语料数据包括:N个说话人的语音平行语料,语音平行语料是指多个人的语音语料对应相同的语音文本内容;
[0027]基于N个人说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;
[0028]获取特定说话人的语音平行语料,将特定说话人的语音平行语料分别与N个说话人的语音平行语料进行组合,得到N组训练语音数据;
[0029]基于N组训练语音数据对语音转换平均模型进行训练,得到特定语音转换平均模型;
[0030]获取目标说话人的第一样本语音数据,获取特定说话人对应的第二样本语音数据,第一样本语音数据和第二样本语音数据对应的文本内容相同,第一样本语音数据的规模远小于语音平行语料的规模;
[0031]基于第一样本语音数据和第二样本语音数据对特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。
[0032]本专利技术提供一种个性化语音转换训练方法、装置及计算机设备,通过获取的N个说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;获取特定说话人的语音平行语料并分别与N个说话人的语音平行语料进行组合,得到N组训练语音数据;基于N组训练语音数据对语音转换平均模型进行训练,得到特定语音转换平均模型;获取目标说话人的第一样本语音数据,获取特定说话人对应的第二样本语音数据,并对特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。由于目标说话人的第一样本语音数据的规模远小于语音平行语料的规模,因此本专利技术只需要很少的目标说话人的样本语音数据便可以实现高质量个性化语音的合成,大大降低了个性化语音的制作成本,从而可以为每个个人用户都制作独特的个性化语音合成模型,实现每个个人用户的个性化语音合成。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0034]图1为一个实施例中个性化语音转换训练方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种个性化语音转换训练方法,其特征在于,所述方法包括:获取语音语料库中的语音语料数据,所述语音语料数据包括:N个说话人的语音平行语料,所述语音平行语料是指多个人的语音语料对应相同的语音文本内容;基于所述N个人说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型;获取特定说话人的语音平行语料,将所述特定说话人的语音平行语料分别与所述N个说话人的语音平行语料进行组合,得到N组训练语音数据;基于所述N组训练语音数据对所述语音转换平均模型进行训练,得到特定语音转换平均模型;获取目标说话人的第一样本语音数据,获取所述特定说话人对应的第二样本语音数据,所述第一样本语音数据和所述第二样本语音数据对应的文本内容相同,所述第一样本语音数据的规模远小于所述语音平行语料的规模;基于所述第一样本语音数据和所述第二样本语音数据对所述特定语音转换平均模型进行训练,得到特定语音转换到目标语音的目标语音转换模型。2.根据权利要求1所述的方法,其特征在于,所述N组训练语音数据中将特定说话人的语音平行语料作为源语音,所述N组训练语音数据中将N个说话人的语音平行语料作为期望语音;所述方法还包括:利用语音特征分析器对所述源语音与期望语音分别进行声学特征提取,得到源语音声学特征与期望语音声学特征;控制在时间轴上将所述源语音声学特征与所述期望语音声学特征对齐;利用所述对齐后的源语音声学特征与所述期望语音声学特征对预设神经网络模型进行训练,得到初始语音转换模型。3.根据权利要求1所述的方法,其特征在于,所述基于所述N个人说话人的语音平行语料对初始语音转换模型进行训练,得到语音转换平均模型,包括:将所述N个人的语音平行语料进行两两组合,得到组训练语音数据;基于所述组训练语音数据对初始语音转换模型进行训练,得到语音转换平均模型。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待转换的语音文本,通过语音合成模型将所述待转换的语音文本转换为所述特定说话人的语音数据;将所述特定说话人的语音数据作为所述目标语音转换模型的输入,获取所述目标语音转换模型输出的目标语音数据。5.根据权利要求4所述的方法,其特征在于,所述通过语音合成模型将所述待转换的语音文本转换为所述特定说话人的语音数据之前,还包括:获取所述特定说话人对应的目标语音语料数据;将所述目标语音语料数据进行文本分析与语音分析,分别得到语音语料文本特征与语音语料声音特征;利用所述语音语料...

【专利技术属性】
技术研发人员:黄东延王若童
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1