语音合成模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37204298 阅读:13 留言:0更新日期:2023-04-20 22:58
本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质,所述方法包括:将第一语音样本对应的音乐信息,输入至时长提取模块,获取乐谱样本嵌入值;将乐谱样本嵌入值和乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块,进行降维;将线性变换模块的输出,作为框架网络模块的输入,获取音乐信息对应的第一预测样本特征;获取第一语音样本对应的隐特征;将隐特征输入至解码器中,获取隐特征对应的预测语音样本;基于第一语音样本和所述预测语音样本,调整解码器的参数;基于第一预测样本特征和隐特征,调整所述线性变换模块和框架网络模块的参数;基于音高样本嵌入值调整音高提取模块的参数。值调整音高提取模块的参数。值调整音高提取模块的参数。

【技术实现步骤摘要】
语音合成模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及语音合成
,尤其涉及一种语音合成模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中,通常是采用两阶段语音合成模型实现语音合成,需要单独训练声学模型和声码器;且进行语音合成时考虑的信息不全面,使得最终合成的结果与实际需求存在差异,无法满足用户需求。

技术实现思路

[0003]本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
[0004]根据本公开的第一方面,提供一种语音合成模型的训练方法,包括:
[0005]将第一语音样本对应的音乐信息,输入至时长提取模块,获取乐谱样本嵌入值;
[0006]将所述乐谱样本嵌入值和所述乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块,进行降维;
[0007]将所述线性变换模块的输出,作为所述框架网络模块的输入,获取所述音乐信息对应的第一预测样本特征;
[0008]获取所述第一语音样本对应的隐特征;
[0009]将所述隐特征输入至解码器中,获取所述隐特征对应的预测语音样本;
[0010]基于所述第一语音样本和所述预测语音样本,调整所述解码器的参数;基于第一预测样本特征和所述隐特征,调整所述线性变换模块和框架网络模块的参数;基于音高样本嵌入值调整音高提取模块的参数。
[0011]根据本公开的第二方面,提供一种语音合成方法,基于上述第一方面提供的语音合成模型的训练方法得到的语音合成模型实现,所述方法包括:
[0012]将待合成的音乐信息输入至语音合成模型包括的时长提取模块,获取乐谱嵌入值;
[0013]将所述乐谱嵌入值和所述乐谱嵌入值对应的音高样本嵌入值输入至语音合成模型包括的线性变换模块进行降维;
[0014]将所述线性变换模块的输出作为语音合成模型包括的框架网络模块的输入,获取所述待合成的音乐信息对应的第一特征;
[0015]将所述第一特征输入至所述语音合成模型包括的解码器中,获得所述待合成的音乐信息对应的语音信息。
[0016]根据本公开的第三方面,提供了一种语音合成模型的训练装置,所述装置包括:
[0017]第一嵌入值获取单元,用于将第一语音样本对应的音乐信息,输入至时长提取模块,获取乐谱样本嵌入值;
[0018]第一线性变换单元,用于将所述乐谱样本嵌入值和所述乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块,进行降维;
[0019]第一获取单元,用于将所述线性变换模块的输出,作为所述框架网络模块的输入,获取所述音乐信息对应的第一预测样本特征;
[0020]第二获取单元,用于获取所述第一语音样本对应的隐特征;
[0021]第一解码单元,用于将所述隐特征输入至解码器中,获取所述隐特征对应的预测语音样本;
[0022]调整单元,用于基于所述第一语音样本和所述预测语音样本,调整所述解码器的参数;基于第一预测样本特征和所述隐特征,调整所述线性变换模块和框架网络模块的参数;基于音高样本嵌入值调整音高提取模块的参数。
[0023]根据本公开的第四方面,提供了一种语音合成装置,基于上述第一方面提供的语音合成模型的训练方法得到的语音合成模型实现,所述装置包括:
[0024]第二嵌入值获取单元,用于将待合成的音乐信息输入至语音合成模型包括的时长提取模块,获取乐谱嵌入值;
[0025]第二线性变换单元,用于将所述乐谱嵌入值和所述乐谱嵌入值对应的音高样本嵌入值输入至语音合成模型包括的线性变换模块进行降维;
[0026]第三获取单元,用于将所述线性变换模块的输出作为语音合成模型包括的框架网络模块的输入,获取所述待合成的音乐信息对应的第一特征;
[0027]第二解码单元,用于将所述第一特征输入至所述语音合成模型包括的解码器中,获得所述待合成的音乐信息对应的语音信息。
[0028]根据本公开的第五方面,提供了一种电子设备,包括:
[0029]至少一个处理器;以及
[0030]与所述至少一个处理器通信连接的存储器;其中,
[0031]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
[0032]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
[0033]本公开的语音合成模型的训练方法,通过将第一语音样本对应的音乐信息,输入至时长提取模块,获取乐谱样本嵌入值;将所述乐谱样本嵌入值和所述乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块,进行降维;将所述线性变换模块的输出,作为所述框架网络模块的输入,获取所述音乐信息对应的第一预测样本特征;获取所述第一语音样本对应的隐特征;将所述隐特征输入至解码器中,获取所述隐特征对应的预测语音样本;基于所述第一语音样本和所述预测语音样本,调整所述解码器的参数;基于第一预测样本特征和所述隐特征,调整所述线性变换模块和框架网络模块的参数;基于音高样本嵌入值调整音高提取模块的参数。如此,能够有效解决目前歌唱合成过程中合成语音不自然,音高不准的问题。
[0034]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0035]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0036]在附图中,相同或对应的标号表示相同或对应的部分。
[0037]图1示出了本公开实施例提供的语音合成模型的训练方法的可选流程示意图;
[0038]图2示出了本公开实施例提供的训练阶段语音合成模型的示意图;
[0039]图3示出了本公开实施例提供的语音合成方法的可选流程示意图;
[0040]图4示出了本公开实施例提供的推理阶段语音合成模型的示意图;
[0041]图5示出了本公开实施例提供的语音合成模型的训练装置的可选结构示意图;
[0042]图6示出了本公开实施例提供的语音合成装置的可选结构示意图;
[0043]图7示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
[0044]为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0045]首先对本公开实施例涉及的英文缩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:将第一语音样本对应的音乐信息,输入至时长提取模块,获取乐谱样本嵌入值;将所述乐谱样本嵌入值和所述乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块,进行降维;将所述线性变换模块的输出,作为框架网络模块的输入,获取所述音乐信息对应的第一预测样本特征;获取所述第一语音样本对应的隐特征;将所述隐特征输入至解码器中,获取所述隐特征对应的预测语音样本;基于所述第一语音样本和所述预测语音样本,调整所述解码器的参数;基于第一预测样本特征和所述隐特征,调整所述线性变换模块和框架网络模块的参数;基于音高样本嵌入值调整音高提取模块的参数。2.根据权利要求1所述的方法,其特征在于,所述将第一语音样本对应的音乐信息,输入至时长提取模块,获取乐谱样本嵌入值,包括:将所述音乐信息包括的连音信息和颤音信息输入至第一预测模块中,获取所述连音信息和所述颤音信息对应的第一样本嵌入值;将所述音乐信息包括的音素输入至第一编码模块中,获取所述音素对应的音素样本嵌入值;将所述音乐信息包括的时长信息输入至第二预测模块中,获取所述时长信息对应的时长样本嵌入值;将所述第一样本嵌入值、所述音素样本嵌入值、所述时长样本嵌入值和所述音乐信息包括的音高信息输入至所述时长提取模块中,获取所述乐谱样本嵌入值。3.根据权利要求1或2所述的方法,其特征在于,所述将所述乐谱样本嵌入值和所述乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块,进行降维之前,所述方法还包括:将所述乐谱样本嵌入值输入至音高提取模块中,获取所述乐谱样本嵌入值对应的音高样本嵌入值。4.根据权利要求1所述的方法,其特征在于,所述获取所述第一语音样本对应的隐特征,包括:将所述第一语音样本输入至所述语音合成模型包括的特征提取模块和第二编码模块中,获取所述第一语音样本对应的隐特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音样本和所述预测语音样本,调整所述解码器的参数,包括:基于所述第一语音样本和所述预测语音样本确认第一损失函数;基于所述第一损失函数调整所述解码器的参数。6.根据权利要求1所述的方法,其特征在于,所述基于第一预测样本特征和所述隐特征,调整所述线性变换模块和框架网络模块的参数,包括:将所述隐特征输入至所述...

【专利技术属性】
技术研发人员:杨喜鹏岳鹏飞陈云琳
申请(专利权)人:上海墨百意信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1