语音合成模型的训练及语音合成方法、装置和相关设备制造方法及图纸

技术编号:34480642 阅读:21 留言:0更新日期:2022-08-10 08:56
本发明专利技术公开了一种语音合成模型的训练方法,应用于人工智能领域。本发明专利技术提供的语音合成模型包括矢量量化层,所述矢量量化层包括码书,本发明专利技术提供的方法包括:将待训练的音频数据分类为配对音频和无配对音频,并通过编码器将所述配对音频和无配对音频对应转换成第一连续变量和第二连续变量;对所述第一连续变量进行有监督学习方式的训练,根据得到的第一损失优化所述矢量量化层的参数;对所述第二连续变量进行无监督学习方式的训练,完善所述码书;将所述第一连续变量和所述第二连续变量发送至所述语音合成模型进行半监督学习方式的训练,根据得到的第二损失优化所述矢量量化层的参数,直至所述第二损失最小,得到训练完成的语音合成模型。的语音合成模型。的语音合成模型。

【技术实现步骤摘要】
语音合成模型的训练及语音合成方法、装置和相关设备


[0001]本专利技术涉及人工智能领域,尤其涉及一种语音合成模型的训练及语音合成方法、装置和相关设备。

技术介绍

[0002]语音合成是将文本内容生成对应的语音内容,即输入是一段文本,输出是可以播放的音频文件。传统语音合成技术包括:拼接合成、参数合成和端到端合成。其中,拼接合成技术和端到端合成技术都只利用成对的语音和文本数据集来进行语音合成,无法利用未配对的语音和文本数据集得到音频数据。

技术实现思路

[0003]本专利技术实施例提供一种语音合成模型的训练及语音合成方法、装置、计算机设备及存储介质,以解决无配对音频数据在传统的语音合成模型的训练过程中无法使用的问题。
[0004]一种语音合成模型的训练方法,所述语音合成模型包括编码器、矢量量化层、解码器,所述矢量量化层包括码书,所述方法包括:
[0005]将训练样本中包括的同一说话人的音频数据分类为配对音频和无配对音频;
[0006]通过编码器将所述配对音频转换成与每个音频数据分别对应的第一连续变量;
[0007]抽取所述第一连续变量并将抽取的第一连续变量输入至所述矢量量化层进行矢量化处理,得到第一离散变量和第一音素向量,将所述第一音素向量添加至所述码书,通过所述解码器将所述第一离散变量转换成第一重构音频,计算所述第一重构音频与所述配对音频的第一损失;
[0008]判断所述第一损失是否达到最小,若否,则根据所述第一损失优化所述矢量量化层的参数,并循环所述抽取所述第一连续变量至所述判断所述第一损失是否达到最小之间的步骤,直至所述第一损失达到最小,完成第一阶段训练;
[0009]通过编码器将所述无配对音频转换成与每个音频数据分别对应的第二连续变量;
[0010]将所述第二连续变量输入至所述矢量量化层进行矢量化处理,通过所述码书后得到包含伪音素标签的第二音素向量,将所述第二音素向量添加至所述码书,得到更新后的矢量量化层;
[0011]将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理,得到第二离散变量,通过所述解码器将所述第二离散变量转换成第二重构音频,计算所述第二重构音频与所述配对音频或所述无配对音频的第二损失;
[0012]判断所述第二损失是否达到最小,若否,则根据所述第二损失优化所述更新后的矢量量化层的参数,循环所述将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理至所述判断所述第二损失是否达到最小之间的步骤,直至所述第二损失达到最小,得到训练好的语音合成模型。
[0013]根据上述方法训练得到的语音合成模型进行语音合成的方法,该方法包括:
[0014]通过音素识别工具识别输入的文本,得到待合成音素标签;
[0015]将所述待合成音素标签输入至所述语音合成模型,所述语音合成模型根据预先选择的码书查询到所述待合成音素标签对应的待合成隐向量;
[0016]将所述待合成隐向量输入至所述语音合成模型中的解码器,得到目标合成语音。
[0017]一种语音合成模型的训练装置,所述语音合成模型包括编码器、矢量量化层、解码器,所述矢量量化层包括码书,所述装置包括:
[0018]音频数据分类模块,用于将训练样本中包括的同一说话人的音频数据分类为配对音频和无配对音频;
[0019]第一数据转换模块,用于通过编码器将所述配对音频转换成与每个音频数据分别对应的第一连续变量;
[0020]第一损失计算模块,用于抽取所述第一连续变量并将抽取的第一连续变量输入至所述矢量量化层进行矢量化处理,得到第一离散变量和第一音素向量,将所述第一音素向量添加至所述码书,通过所述解码器将所述第一离散变量转换成第一重构音频,计算所述第一重构音频与所述配对音频的第一损失;
[0021]第一损失循环模块,用于判断所述第一损失是否达到最小,若否,则根据所述第一损失优化所述矢量量化层的参数,并循环所述抽取所述第一连续变量至所述判断所述第一损失是否达到最小之间的步骤,直至所述第一损失达到最小,完成第一阶段训练;
[0022]第二数据转换模块,用于通过编码器将所述无配对音频转换成与每个音频数据分别对应的第二连续变量;
[0023]伪音素标签模块,用于将所述第二连续变量输入至所述矢量量化层进行矢量化处理,通过所述码书后得到包含伪音素标签的第二音素向量,将所述第二音素向量添加至所述码书,得到更新后的矢量量化层;
[0024]第二损失计算模块,用于将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理,得到第二离散变量,通过所述解码器将所述第二离散变量转换成第二重构音频,计算所述第二重构音频与所述配对音频或所述无配对音频的第二损失;
[0025]第二损失循环模块,用于判断所述第二损失是否达到最小,若否,则根据所述第二损失优化所述更新后的矢量量化层的参数,循环所述将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理至所述判断所述第二损失是否达到最小之间的步骤,直至所述第二损失达到最小,得到训练好的语音合成模型。
[0026]根据上述语音合成模型的训练装置提供的语音合成模型进行语音合成的装置,该装置包括:
[0027]音素识别模块,用于通过音素识别工具识别输入的文本,得到待合成音素标签;
[0028]音素查询模块,用于将所述待合成音素标签输入至所述语音合成模型,所述语音合成模型根据预先选择的码书查询到所述待合成音素标签对应的待合成隐向量;
[0029]目标语音合成模块,用于将所述待合成隐向量输入至所述语音合成模型中的解码器,得到目标合成语音。
[0030]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理
器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音合成模型的训练方法或根据所述语音合成模型进行语音合成的方法的步骤。
[0031]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音合成模型的训练方法或根据所述语音合成模型进行语音合成的方法的步骤。
[0032]上述语音合成模型的训练及语音合成方法、装置、计算机设备及存储介质,通过先将配对数据发送至所述语音合成模型进行有监督学习方式的训练,然后将无配对数据发送至所述语音合成模型进行无监督学习方式的训练,最后将所述配对数据和无配对数据一起发送至所述语音合成模型进行半监督学习方式的训练。利用了传统技术无法使用的大量无配对数据,通过无配对数据更加丰富了所述语音合成模型中的码书的内容,使得最终得到的合成语音内容更加准确。
附图说明
[0033]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述语音合成模型包括编码器、矢量量化层、解码器,所述矢量量化层包括码书,所述方法包括:将训练样本中包括的同一说话人的音频数据分类为配对音频和无配对音频;通过编码器将所述配对音频转换成与每个音频数据分别对应的第一连续变量;抽取所述第一连续变量并将抽取的第一连续变量输入至所述矢量量化层进行矢量化处理,得到第一离散变量和第一音素向量,将所述第一音素向量添加至所述码书,通过所述解码器将所述第一离散变量转换成第一重构音频,计算所述第一重构音频与所述配对音频的第一损失;判断所述第一损失是否达到最小,若否,则根据所述第一损失优化所述矢量量化层的参数,并循环所述抽取所述第一连续变量至所述判断所述第一损失是否达到最小之间的步骤,直至所述第一损失达到最小,完成第一阶段训练;通过编码器将所述无配对音频转换成与每个音频数据分别对应的第二连续变量;将所述第二连续变量输入至所述矢量量化层进行矢量化处理,通过所述码书后得到包含伪音素标签的第二音素向量,将所述第二音素向量添加至所述码书,得到更新后的矢量量化层;将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理,得到第二离散变量,通过所述解码器将所述第二离散变量转换成第二重构音频,计算所述第二重构音频与所述配对音频或所述无配对音频的第二损失;判断所述第二损失是否达到最小,若否,则根据所述第二损失优化所述更新后的矢量量化层的参数,循环所述将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理至所述判断所述第二损失是否达到最小之间的步骤,直至所述第二损失达到最小,得到训练好的语音合成模型。2.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述将所述第一连续变量输入至所述矢量量化层进行矢量化处理,得到第一离散变量和第一音素向量包括:通过预设距离公式,将所述第一连续变量进行矢量量化处理,得到第一离散变量;通过预设查找函数在所述码书中查询,获取所述第一离散变量中每个变量对应的第一音素标签集合;通过预设归一化指数函数筛选所述第一音素标签集合,使得所述第一离散变量中每个变量对应唯一的音素标签;将所述第一离散变量中每个变量和所述每个变量对应的唯一音素标签逐一转换成所述第一音素向量,将所述第一音素向量添加至所述码书。3.根据权利要求2所述的语音合成模型的训练方法,其特征在于,所述将所述第二连续变量输入至所述矢量量化层进行矢量化处理,通过所述码书后得到包含伪音素标签的第二音素向量还包括:通过所述预设距离公式,将所述第二连续变量进行矢量化处理,得到第三离散变量;通过所述预设查找函数在完成第一阶段训练的所述码书中查询,获取所述第三离散变量中每个变量对应的伪音素标签;通过预设的锐化函数,将所述每个伪音素标签对应的变量进一步锐化,得到锐化后的变量与伪音素标签的对应关系,将所述对应关系转换成所述第二音素向量。
4.根据权利要求1所述的语音合成模型的训练方法,其特征在于,所述通过所述解码器将所述第一离散变量转换成第一重构音频之前还包括:将所述第一离散变量中对应相同音素标签的变量进行合并操作,得到合并后的离散变量;将所述合并后的离散变量替换所述第一离散变量,然后将替换后的第一离散变量发送至解码器。5.根据权利要求1...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1