语音合成、语音合成模型训练方法、装置及设备制造方法及图纸

技术编号:33997481 阅读:42 留言:0更新日期:2022-07-02 11:15
本发明专利技术实施例公开了一种语音合成、语音合成模型训练方法、装置及设备。其中,语音合成模型训练方法,包括:对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本;通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型;通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型;将音素转换模型和频谱转换模型,组合构成语音合成模型。本发明专利技术实施例的技术方案,通过双模型进行语音合成,优化离线语音合成效果的同时,降低计算资源消耗。降低计算资源消耗。降低计算资源消耗。

【技术实现步骤摘要】
语音合成、语音合成模型训练方法、装置及设备


[0001]本专利技术实施例涉及计算机技术,尤其涉及一种语音合成、语音合成模型训练方法、装置及设备。

技术介绍

[0002]语音合成是通过机械或者电子的方法产生人造语音的技术,目前市场上的语音合成系统分为在线语音合成和离线语音合成两种。在线语音合成所使用的模型一般比较复杂,对设备的算力要求较高,且在线语音合成对网络依赖性高,在网络环境不稳定时,无法实现稳定的语音合成。
[0003]离线语音合成可以脱离网络的束缚,在本地实现语音合成,但在算力较低的移动设备上进行语音合成时,为了能达到实时合成的效果,往往使用一个集成语音合成算法的简单模型来进行语音合成,一方面,由于模型较为简单,合成的语音更像机器人,没有情感及抑扬顿挫的语气,另一方面,如果需要变更说话人或者变更语种时,还需要耗费大量时间重新进行模型训练。

技术实现思路

[0004]本专利技术实施例提供一种语音合成、语音合成模型训练方法、装置及设备,通过双模型进行语音合成,优化语音合成效果的同时,降低计算资源消耗。
[0005]第一方面,本专利技术实施例提供了一种语音合成模型训练方法,所述方法包括:
[0006]对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;
[0007]通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
[0008]通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
[0009]将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
[0010]第二方面,本专利技术实施例还提供了一种语音合成方法,所述方法包括:
[0011]将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
[0012]通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
[0013]通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
[0014]第三方面,本专利技术实施例还提供了一种语音合成模型训练装置,所述装置包括:
[0015]训练样本获取模块,用于对音频数据样本进行预处理,得到所述音频数据样本对
应的目标音素训练样本和目标频谱训练样本;
[0016]第一模型训练模块,用于通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
[0017]第二模型训练模块,用于通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
[0018]合成模型构建模块,用于将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
[0019]第四方面,本专利技术实施例还提供了一种语音合成装置,所述装置包括:
[0020]音素输入模块,用于将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
[0021]频谱输出模块,用于通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
[0022]音频输出模块,用于通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
[0023]第五方面,本专利技术实施例还提供了一种电子设备,包括:
[0024]一个或多个处理器;
[0025]存储器,用于存储一个或多个程序;
[0026]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例提供的语音合成模型训练方法或者语音合成方法。
[0027]第六方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例提供的语音合成模型训练方法或者语音合成方法。
[0028]本专利技术实施例的技术方案,服务器首先对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本,然后通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,并通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,最终将音素转换模型和频谱转换模型组合构成语音合成模型,解决了现有离线语音合成方法中由于算力的限制,只能使用简单模型导致合成语音效果不好,且变更模型时模型训练耗时较多的问题,通过双模型进行语音合成,一方面,优化了语音合成效果,另一方面,在需要变更合成语音模型时只需要根据实际需求变更其中一个模型,减少模型重新训练耗时。
附图说明
[0029]图1是本专利技术实施例一中的一种语音合成模型训练方法的流程图;
[0030]图2a是本专利技术实施例二中的一种语音合成模型训练方法的流程图;
[0031]图2b是本专利技术实施例二中的一种音素转换示意图(图2b仅用于说明由音 素到音频频谱的转换流程,不对转换内容作出限制);
[0032]图2c是本专利技术实施例二中的一种频谱转换示意图(图2c仅用于说明由音 频频谱
到音频数据的转换流程,不对转换内容作出限制);
[0033]图3是本专利技术实施例三中的一种语音合成方法的流程图;
[0034]图4是本专利技术实施例四中的一种语音合成方法的流程图;
[0035]图5是本专利技术实施例五中的一种语音合成模型训练装置示意图;
[0036]图6是本专利技术实施例六中的一种语音合成装置示意图;
[0037]图7是本专利技术实施例七提供的一种设备的结构示意图。
具体实施方式
[0038]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0039]实施例一
[0040]图1为本专利技术实施例一中的一种语音合成模型训练方法的流程图,本实施例的技术方案适用于通过两个模型配合实现语音合成的情况,该方法可以由语音合成模型训练装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:
[0041]步骤110、对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本。
[0042]其中,音素是根据语音的自然属本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型训练方法,应用于服务器,其特征在于,包括:对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。2.根据权利要求1所述的方法,其特征在于,对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本,包括:对所述音频数据样本进行语音识别,获取所述音频数据样本对应的文本;将所述文本转换为对应音素,并将所述音素作为目标音素训练样本;根据所述音频数据样本,生成与所述音频数据样本对应的音频频谱,并将所述音频频谱作为目标频谱训练样本。3.根据权利要求1所述的方法,其特征在于,将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,包括:将所述音素转换模型和频谱转换模型的计算精度调节至与待部署终端匹配的计算精度;将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型。4.根据权利要求2所述的方法,其特征在于,在通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型之前,还包括:对所述音频数据样本和所述音频数据样本对应的文本进行情感分析,得到所述音频数据样本对应的情感类型;相应的,通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,包括:通过所述目标音素训练样本和所述音频数据样本对应的情感类型对第一初始模型进行训练,得到音素转换模型;通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,包括:通过所述目标频谱训练样本和所述音频数据样本对应的情感类型对第二初始模型进行训练,得到频谱转换模型。5.一种语音合成方法,应用于终端设备,其特征在于,包括:将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。6.根据权利要求5所述的方法,其特征在于,通过所述音素转换模型,在离线模式下,将
待合成文本对应的音素转换为对应的音频频谱,包括:通过所述音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内;并行提取各时间段内的音素对应的梅尔倒谱系数特征;将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到所述待合成文本对应的音频频谱。7.根据权利要求5所述的方法,其特征在于,通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据,包括:通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱切分为至少两个音频频谱块;并行将各音频频谱块转换为对应的子音频数据;将各子音频数据按照对应时间段进行拼接,得到所述音频频谱对应的音频数据。8.根据权利要求5所述的方法,其特征在于,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:对所述待合成文本进行情感分析,得到待合成文本对应的情感类型;相应的,将待合成文本对应...

【专利技术属性】
技术研发人员:丁雪枫
申请(专利权)人:大众问问北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1