语音转化模型的训练方法和装置及语音生成方法和装置制造方法及图纸

技术编号:37604486 阅读:8 留言:0更新日期:2023-05-18 11:56
本公开提供了一种语音转化模型的训练方法和装置及语音生成方法和装置。所述训练方法包括:获取第一训练数据,其中,第一训练数据包括语音数据、与所述语音数据对应的音素数据和与所述语音数据对应的标准梅尔谱图;将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入,其中,所述说话人嵌入用于表示说话人的音色;以及基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对初始语音转化模型进行训练,得到所述语音转化模型,所述语音转化模型用于将文本转化为语音的梅尔谱图。音的梅尔谱图。音的梅尔谱图。

【技术实现步骤摘要】
语音转化模型的训练方法和装置及语音生成方法和装置


[0001]本申请涉及语音合成领域,更具体地讲,涉及一种语音转化模型的训练方法和装置及语音生成方法和装置。

技术介绍

[0002]定制语音在不同的应用场景中吸引了越来越多的注意,例如个人助理、新闻广播和音频导航,且在商业领域也得到了广泛支持。在现有的定制目标说话人的语音的方法中,通过直接利用目标说话人的语音训练TTS模型实现语音定制,或者通过利用少量可用性自适应数据(通常数据只有几秒钟或者几分钟)对经过训练的基础TTS模型进行微调来实现语音定制,但是它们都无法满足针对目标说话人语音随采随用的大多数场景。

技术实现思路

[0003]本公开提供一种语音到文本(TTS)模型的训练方法和装置及语音合成方法和装置。
[0004]根据本公开实施例的第一方面,提供一种语音转化模型的训练方法,其中,所述训练方法包括:获取第一训练数据,其中,第一训练数据包括语音数据、与所述语音数据对应的音素数据和与所述语音数据对应的标准梅尔谱图;将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入,其中,所述说话人嵌入用于表示说话人的音色;以及基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对初始语音转化模型进行训练,得到所述语音转化模型,所述语音转化模型用于将文本转化为语音的梅尔谱图。
[0005]根据本公开实施例的第二方面,提供一种语音生成方法,其中,所述语音生成方法包括:获取目标说话人的目标语音数据和目标文本;将所述目标文本转换为目标音素数据;将所述目标语音数据输入到说话人识别模型,得到目标说话人嵌入,其中,所述目标说话人嵌入用于表示所述目标说话人的音色;将所述目标说话人嵌入和所述目标音素数据输入到语音转化模型,生成与所述目标文本对应的语音的梅尔谱图;利用所述梅尔谱图生成所述语音,其中,所述语音包含所述目标说话人的音色,其中,所述语音转化模型为根据所述说话人识别模型输出的说话人嵌入训练得到。
[0006]根据本公开实施例的第三方面,提供一种语音转化模型的训练装置,其中,所述训练装置包括:训练数据获取单元,被配置为获取第一训练数据,其中,第一训练数据包括语音数据、与所述语音数据对应的音素数据和与所述语音数据对应的标准梅尔谱图;模型训练单元,被配置为:将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入,并基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对初始语音转化模型进行训练,得到所述语音转化模型,所述语音转化模型用于将文本转化为语音,其中,所述说话人嵌入用于表示说话人的音色的梅尔谱图。
[0007]根据本公开实施例的第四方面,提供一种语音生成装置,其中,所述语音生成装置
包括:数据获取单元,被配置为获取目标说话人的目标语音数据和目标文本;音素产生单元,被配置为将所述目标文本转换为目标音素数据;说话人嵌入获得单元,被配置为将所述目标语音数据输入到说话人识别模型,得到目标说话人嵌入,其中,所述目标说话人嵌入用于表示所述目标说话人的音色;语音生成单元,被配置为将所述目标说话人嵌入和所述目标音素数据输入到语音转化模型,生成与所述目标文本对应的语音的梅尔谱图,并利用所述梅尔谱图生成所述语音,其中,所述语音包含所述目标说话人的音色,其中,所述语音转化模型为根据所述说话人识别模型输出的说话人嵌入训练得到。
[0008]根据本公开实施例的第五方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的语音转化模型的训练方法或语音生成方法。
[0009]根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的语音转化模型的训练方法或语音生成方法。
[0010]根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的语音转化模型的训练方法或语音生成方法。
[0011]本公开的实施例提供的技术方案至少带来以下有益效果:
[0012]根据本公开的方法,通过说话人识别模型从目标说话人的目标语音数据获取目标说话人嵌入,并将该目标说话人嵌入和与目标文本对应的目标音素数据输入到语音转化模型来语音的梅尔谱图,并根据该梅尔谱图生成具有目标说话人的音色的语音,从而可做到语音的随采随用,即,仅需要少量目标语音数据就可以立即实现任意目标说话人(包括未在语音转化模型的训练数据中的说话人)的语音定制,并且在上述过程中,不存在语音转化模型的微调阶段,节省了计算资源和模型训练时间成本,大大减少了针对目标说话人的语音定制的语音转化模型的应用时效,此外,也可节省模型训练数据采购/采集成本。
[0013]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0014]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0015]图1是示出可应用根据本公开的示例性实施例的语音转化模型的场景的示意图;
[0016]图2示出根据本公开的示例性实施例的语音转化模型的训练方法的流程图;
[0017]图3是示出RepVGG模型在训练时和推理时的结构的示图;
[0018]图4是示出根据本公开的示例性实施例的在训练初始语音转化模型的过程中基于音素数据和说话人嵌入预测梅尔谱图的过程的流程图;
[0019]图5示出了根据本公开的示例性实施例的语音转化模型的示意图;
[0020]图6是示出Trasformer网络结构的示图;
[0021]图7是示出Transformer网络结构中的多头注意力层的内部结构的示图;
[0022]图8是示出根据本公开的示例性实施例的语音生成方法的流程图;
[0023]图9是示出根据本公开的示例性实施例的由语音转化模型利用目标说话人嵌入和目标音素数据生成语音的梅尔谱图的过程的流程图;
[0024]图10是示出根据本公开的示例性实施例的语音生成方法生成的合成语音的一个示例的示图;
[0025]图11是示出根据本公开的示例性实施例的语音转化模型的训练装置的框图;
[0026]图12是示出根据本公开的示例性实施例的语音生成装置的框图;
[0027]图13是示出根据本公开的示例性实施例的语音转化模型的训练方法和语音生成方法的实施环境的示图;
[0028]图14是示出根据本公开的示例性实施例的电子设备的框图。
[0029]在下文中,将结合附图详细描述本申请,贯穿附图,相同或相似的元件将用相同或相似的标号来指示。
具体实施方式
[0030]为了使本领域普通人员更好地理解本公开的技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转化模型的训练方法,其特征在于,所述训练方法包括:获取第一训练数据,其中,第一训练数据包括语音数据、与所述语音数据对应的音素数据、以及与所述语音数据对应的标准梅尔谱图;将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入,其中,所述说话人嵌入用于表示说话人的音色;基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对初始语音转化模型进行训练,得到所述语音转化模型,所述语音转化模型用于将文本转化为语音的梅尔谱图。2.如权利要求1所述的训练方法,其特征在于,所述将所述语音数据输入到预训练的说话人识别模型得到与所述语音数据对应的说话人嵌入之前,所述训练方法还包括:获取第二训练数据,其中,所述第二训练数据包括与所述第一训练数据中的语音数据不相同的语音数据;基于所述第一训练数据中的语音数据和所述第二训练数据或所述第二训练数据训练初始说话人识别模型,得到所述预训练的说话人识别模型。3.如权利要求1所述的训练方法,其特征在于,基于所述音素数据、所述标准梅尔谱图和所述说话人嵌入对所述初始语音转化模型进行训练,得到所述语音转化模型,包括:将所述音素数据和所述说话人嵌入输入到所述初始语音转化模型进行预测,得到预测的梅尔谱图;基于所述预测的梅尔谱图和所述标准梅尔谱图调整所述初始语音转化模型的参数,得到所述语音转化模型。4.如权利要求3所述的训练方法,其特征在于,所述初始语音转化模型包括音素嵌入层、第一编码器、第一加法器、第二编码器、第二加法器、变量适配器、第三编码器、第三加法器和解码器,所述将所述音素数据和所述说话人嵌入输入到所述初始语音转化模型进行预测得到预测的梅尔谱图,包括:通过所述音素嵌入层对所述音素数据进行编码,得到音素嵌入;通过所述第一编码器对所述音素嵌入进行位置编码,得到所述音素嵌入的位置编码信息;通过所述第一加法器将所述音素嵌入的位置编码信息与所述音素嵌入相加,得到叠加了位置编码信息的音素嵌入;通过所述第二编码器对所述叠加了位置编码信息的音素嵌入进行编码,得到第一隐藏序列;通过第二加法器对所述第一隐藏序列与所述说话人嵌入相加,得到第二隐藏序列;通过所述变量适配器对所述第二隐藏序列进行融合处理,得到第三隐藏序列;通过所述第三编码器对所述第三隐藏序列进行位置编码,得到所述第三隐藏序列的位置编码信息;通过所述第三加法器对所述第三隐藏序列的位置编码信息、所述说话人嵌入和所述第三隐藏序列相加,得到第四隐藏序列;通过所述解码器对所述第四隐藏序列进行解码,得到所述预测的梅尔谱图。5.一种语音生成方法,其特征在于,所述语音生成方法包括:获取目标说话人的目标语音数据和目标文本;
将所述目标文本转换为目标音素数据;将所述目标语音数据输入到说话人识别模型,得到目标说话人嵌入,其中,所述目标说话人嵌入用于表示所述目标说话人的音色;将所述目标说话人嵌入和所述目标音素数据输入到语音转化模型,生成与所述目标文本对应的语音的梅尔谱图;利用所述梅尔谱图生成所述语音,其中,所述语音包含所述目标说话人的音色;其中,所述语音转化模型为根据所述说话人识别模型输出的说话人嵌入训练得到。6.如权...

【专利技术属性】
技术研发人员:刘鹏飞蒋宁吴海英刘敏
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1