语音合成模型的训练及语音合成方法、装置和相关设备制造方法及图纸

技术编号：34480642 阅读：21 留言：0更新日期：2022-08-10 08:56

本发明专利技术公开了一种语音合成模型的训练方法，应用于人工智能领域。本发明专利技术提供的语音合成模型包括矢量量化层，所述矢量量化层包括码书，本发明专利技术提供的方法包括：将待训练的音频数据分类为配对音频和无配对音频，并通过编码器将所述配对音频和无配对音频对应转换成第一连续变量和第二连续变量；对所述第一连续变量进行有监督学习方式的训练，根据得到的第一损失优化所述矢量量化层的参数；对所述第二连续变量进行无监督学习方式的训练，完善所述码书；将所述第一连续变量和所述第二连续变量发送至所述语音合成模型进行半监督学习方式的训练，根据得到的第二损失优化所述矢量量化层的参数，直至所述第二损失最小，得到训练完成的语音合成模型。的语音合成模型。的语音合成模型。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练及语音合成方法、装置和相关设备

[0001]本专利技术涉及人工智能领域，尤其涉及一种语音合成模型的训练及语音合成方法、装置和相关设备。

技术介绍

[0002]语音合成是将文本内容生成对应的语音内容，即输入是一段文本，输出是可以播放的音频文件。传统语音合成技术包括：拼接合成、参数合成和端到端合成。其中，拼接合成技术和端到端合成技术都只利用成对的语音和文本数据集来进行语音合成，无法利用未配对的语音和文本数据集得到音频数据。

技术实现思路

[0003]本专利技术实施例提供一种语音合成模型的训练及语音合成方法、装置、计算机设备及存储介质，以解决无配对音频数据在传统的语音合成模型的训练过程中无法使用的问题。
[0004]一种语音合成模型的训练方法，所述语音合成模型包括编码器、矢量量化层、解码器，所述矢量量化层包括码书，所述方法包括：
[0005]将训练样本中包括的同一说话人的音频数据分类为配对音频和无配对音频；
[0006]通过编码器将所述配对音频转换成与每个音频数据分别对应的第一连续变量；
[0007]抽取所述第一连续变量并将抽取的第一连续变量输入至所述矢量量化层进行矢量化处理，得到第一离散变量和第一音素向量，将所述第一音素向量添加至所述码书，通过所述解码器将所述第一离散变量转换成第一重构音频，计算所述第一重构音频与所述配对音频的第一损失；
[0008]判断所述第一损失是否达到最小，若否，则根据所述第一损失优化所述矢量量化层的参数，并循环所述抽取所述第...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，所述语音合成模型包括编码器、矢量量化层、解码器，所述矢量量化层包括码书，所述方法包括：将训练样本中包括的同一说话人的音频数据分类为配对音频和无配对音频；通过编码器将所述配对音频转换成与每个音频数据分别对应的第一连续变量；抽取所述第一连续变量并将抽取的第一连续变量输入至所述矢量量化层进行矢量化处理，得到第一离散变量和第一音素向量，将所述第一音素向量添加至所述码书，通过所述解码器将所述第一离散变量转换成第一重构音频，计算所述第一重构音频与所述配对音频的第一损失；判断所述第一损失是否达到最小，若否，则根据所述第一损失优化所述矢量量化层的参数，并循环所述抽取所述第一连续变量至所述判断所述第一损失是否达到最小之间的步骤，直至所述第一损失达到最小，完成第一阶段训练；通过编码器将所述无配对音频转换成与每个音频数据分别对应的第二连续变量；将所述第二连续变量输入至所述矢量量化层进行矢量化处理，通过所述码书后得到包含伪音素标签的第二音素向量，将所述第二音素向量添加至所述码书，得到更新后的矢量量化层；将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理，得到第二离散变量，通过所述解码器将所述第二离散变量转换成第二重构音频，计算所述第二重构音频与所述配对音频或所述无配对音频的第二损失；判断所述第二损失是否达到最小，若否，则根据所述第二损失优化所述更新后的矢量量化层的参数，循环所述将所述第一连续变量和所述第二连续变量输入至所述更新后的矢量量化层进行处理至所述判断所述第二损失是否达到最小之间的步骤，直至所述第二损失达到最小，得到训练好的语音合成模型。2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述将所述第一连续变量输入至所述矢量量化层进行矢量化处理，得到第一离散变量和第一音素向量包括：通过预设距离公式，将所述第一连续变量进行矢量量化处理，得到第一离散变量；通过预设查找函数在所述码书中查询，获取所述第一离散变量中每个变量对应的第一音素标签集合；通过预设归一化指数函数筛选所述第一音素标签集合，使得所述第一离散变量中每个变量对应唯一的音素标签；将所述第一离散变量中每个变量和所述每个变量对应的唯一音素标签逐一转换成所述第一音素向量，将所述第一音素向量添加至所述码书。3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述将所述第二连续变量输入至所述矢量量化层进行矢量化处理，通过所述码书后得到包含伪音素标签的第二音素向量还包括：通过所述预设距离公式，将所述第二连续变量进行矢量化处理，得到第三离散变量；通过所述预设查找函数在完成第一阶段训练的所述码书中查询，获取所述第三离散变量中每个变量对应的伪音素标签；通过预设的锐化函数，将所述每个伪音素标签对应的变量进一步锐化，得到锐化后的变量与伪音素标签的对应关系，将所述对应关系转换成所述第二音素向量。
4.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述通过所述解码器将所述第一离散变量转换成第一重构音频之前还包括：将所述第一离散变量中对应相同音素标签的变量进行合并操作，得到合并后的离散变量；将所述合并后的离散变量替换所述第一离散变量，然后将替换后的第一离散变量发送至解码器。5.根据权利要求1...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人