声码器的训练方法、装置、设备和存储介质制造方法及图纸

技术编号：33285077 阅读：18 留言：0更新日期：2022-04-30 23:50

本公开提供了一种声码器的训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及语音合成、深度学习等人工智能领域。声码器的训练方法包括：获取已有数据，所述已有数据包括：已有音频；对所述已有音频进行数据增强处理，以获得扩充音频；基于所述已有音频和所述扩充音频，训练声码器。本公开可以提高声码器的效果。码器的效果。码器的效果。

全部详细技术资料下载

【技术实现步骤摘要】
声码器的训练方法、装置、设备和存储介质

[0001]本公开涉及计算机
，具体涉及语音合成、深度学习等人工智能领域，尤其涉及一种声码器的训练方法、装置、设备和存储介质。

技术介绍

[0002]语音合成(Text to Speech，TTS)是指将文本转换为音频。语音合成一般采用语音合成模型对文本进行处理，以获得文本对应的音频。
[0003]语音合成模型可以包括声学模型和声码器，声学模型将输入的语音转换为声学特征，声码器将输入的声学特征转换为音频。
[0004]由于声码器对应的训练数据有限，声码器的效果不够理想。

技术实现思路

[0005]本公开提供了一种声码器的训练方法、装置、设备和存储介质。
[0006]根据本公开的一方面，提供了一种声码器的训练方法，包括：获取已有数据，所述已有数据包括：已有音频；对所述已有音频进行数据增强处理，以获得扩充音频；基于所述已有音频和所述扩充音频，训练声码器。
[0007]根据本公开的另一方面，提供了一种声码器的训练装置，包括：获取模块，用于获取已有数据，所述已有数据包括：已有音频；处理模块，用于对所述已有音频进行数据增强处理，以获得扩充音频；训练模块，用于基于所述已有音频和所述扩充音频，训练声码器。
[0008]根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理...

【技术保护点】

【技术特征摘要】
1.一种声码器的训练方法，包括：获取已有数据，所述已有数据包括：已有音频；对所述已有音频进行数据增强处理，以获得扩充音频；基于所述已有音频和所述扩充音频，训练声码器。2.根据权利要求1所述的方法，其中，所述对所述已有音频进行数据增强处理，以获得扩充音频，包括如下项中的至少一项：对所述已有音频进行速度调整，以获得速度调整后的音频，将所述速度调整后的音频作为所述扩充音频；对所述已有音频进行基频调整，以获得基频调整后的音频，将所述基频调整后的音频作为所述扩充音频；对所述已有音频进行音量调整，以获得音量调整后的音频样本，将所述音量调整后的音频样本作为所述扩充音频。3.根据权利要求1或2所述的方法，其中，所述已有数据还包括声学特征样本，所述已有音频和所述扩充音频作为音频样本，所述声码器包括至少一个子模型，所述基于所述已有音频和所述扩充音频，训练声码器，包括：基于所述声学特征样本和所述音频样本，执行至少一步的模型参数更新过程，以生成所述声码器；其中，针对所述至少一步的模型参数更新过程，执行：对所述音频样本进行子带拆分，以获得至少一个真实子带音频；采用所述至少一个子模型的初始模型参数，对所述声学特征样本进行处理，以输出至少一个预测子带音频；基于所述至少一个真实子带音频和所述至少一个预测子带音频，构建损失函数；基于所述损失函数，调整所述至少一个子模型的初始模型参数，以获得所述至少一个子模型的调整后的模型参数；基于所述至少一个子模型的调整后的模型参数，确定所述至少一个子模型的更新后的模型参数。4.根据权利要求3所述的方法，其中，所述至少一步包括当前步，所述基于所述至少一个子模型的调整后的模型参数，确定所述至少一个子模型的更新后的模型参数，包括：若所述当前步的步数小于或等于第一预设值，将所述至少一个子模型的调整后的模型参数，作为所述至少一个子模型的更新后的模型参数；若所述当前步的步数大于所述第一预设值，采用所述至少一个子模型对应的稀疏化规则，对所述至少一个子模型的调整后的模型参数进行稀疏化处理，以获得所述至少一个子模型的更新后的模型参数。5.根据权利要求4所述的方法，其中，所述采用所述至少一个子模型对应的稀疏化规则，对所述至少一个子模型的调整后的模型参数进行稀疏化处理，以获得所述至少一个子模型的更新后的模型参数，包括：采用所述至少一个子模型对应的稀疏化规则，确定所述调整后的模型参数中的待处理模型参数；将所述待处理模型参数的参数值与预设系数相乘，以及，保持所述待处理模型参数之
外的未处理模型参数的参数值不变，以获得所述至少一个子模型的更新后的模型参数。6.根据权利要求5所述的方法，其中，所述将所述待处理模型参数的参数值与预设系数相乘，包括：若所述当前步的步数大于所述第一预设值，且小于或等于第二预设值，将所述待处理模型参数的参数值与第一预设系数相乘，所述第一预设系数为大于0且小于1的数值；或者，若所述当前步的步数大于所述第二预设值，将所述待处理模型参数的参数值与第二预设系数相乘，所述第二预设系数为0；其中，所述第二预设值大于所述第一预设值。7.一种声码器的训练装置，包括：获取模块，用于获取已有数据，所述已有数据包括：已有音频；处理模块，用于对所述已有音频进行数据增强处理，以获得扩充音频；训练模块，用于基于所述已...

【专利技术属性】
技术研发人员：陆嘉盛，高正坤，张君腾，孙涛，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人