文本转语音模型训练方法、文本转语音方法及相关设备技术

技术编号:38330370 阅读:12 留言:0更新日期:2023-07-29 09:13
本申请涉及人工智能领域,提供一种文本转语音模型训练方法、文本转语音方法及相关设备,所述文本转语音模型训练方法包括:获取训练文本及所述训练文本对应的文本音频;对所述训练文本对应的文字编码数据进行时长预测,得到所述训练文本的预测发音长度特征;根据所述文本音频,得到所述训练文本的实际发音长度特征;将所述预测发音长度特征与所述实际发音长度特征进行比较,得到第一损失函数;根据所述第一损失函数,调整文本转语音模型的参数。利用上述方法能够提高文本转语音模型的进度,使得训练完成的文本转语音模型具有更准确的预测发音长度的能力,从而提高了文本转语音的准确率。确率。确率。

【技术实现步骤摘要】
文本转语音模型训练方法、文本转语音方法及相关设备


[0001]本申请涉及人工智能
,具体涉及一种文本转语音模型训练方法、文本转语音方法及相关设备。

技术介绍

[0002]语音合成又称文语转换(Text to Speech,TTS)技术,是语音处理领域的一个重要研究方向,旨在让机器生成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内,也可以作为尾部环节嵌入到语音交互的整体方案之中。语音合成模型经过长时间的发展,由最初的基于拼接合成,到参数合成,逐渐达到了现阶段感情充沛的、基于端到端合成。然而,基于端到端合成的文本转语音的方法往往运算量极大,导致文本转语音的效率较差。

技术实现思路

[0003]鉴于以上内容,有必要提出一种文本转语音模型训练方法、文本转语音方法及相关设备,能够降低文本转语音的运算量并提高文本转语音的效率。
[0004]本申请的实施例一提供一种文本转语音模型训练方法,所述方法包括:获取训练文本及所述训练文本对应的文本音频;基于预设的文本转语音模型,计算所述训练文本对应的文字编码数据;基于所述文本转语音模型,对所述训练文本对应的文字编码数据进行时长预测,得到所述训练文本的预测发音长度特征;根据所述文本音频,得到所述训练文本的实际发音长度特征;将所述预测发音长度特征与所述实际发音长度特征进行比较,得到第一损失函数;根据所述第一损失函数,调整文本转语音模型的参数。
[0005]在本申请的一个实施例中,所述方法还包括:基于所述文本转语音模型,对所述训练文本对应的文字编码数据进行特征提取,得到所述训练文本的声音特征;基于所述文本转语音模型,将所述声音特征与所述预测发音长度特征进行单调对齐融合,得到预测语音信息特征;根据所述文本音频,得到所述训练文本的实际语音信息特征;将所述预测语音信息特征与所述实际语音信息特征进行比较,得到第二损失函数;根据所述第二损失函数,调整所述文本转语音模型的参数。
[0006]在本申请的一个实施例中,所述方法还包括:基于所述文本转语音模型,对所述预测语音信息特征进行建模,得到所述训练文本的预测语音信息分布;基于所述文本转语音模型,对所述预测语音信息分布进行解码,得到目标音频数据;将所述目标音频数据与所述文本音频进行比较,得到第三损失函数;根据所述第三损失函数,调整所述文本转语音模型的参数。
[0007]本申请的实施例二提供一种文本转语音方法,所述方法包括:将目标文本输入预先训练的文本转语音模型,得到所述目标文本的音频数据,包括:计算所述目标文本对应的文字编码数据;对所述文字编码数据进行特征提取,得到所述目标文本的声音特征;根据所述文字编码数据进行时长预测,得到所述目标文本的发音长度信息特征;将所述声音特征
与所述发音长度信息特征进行单调对齐融合,得到语音信息特征;对所述语音信息特征进行建模,得到所述目标文本的语音信息分布;对所述语音信息分布进行解码,得到所述音频数据;其中所述文本转语音模型是通过如上述的文本转语音模型训练方法训练得到的。
[0008]在本申请的一个实施例中,所述将所述声音特征与所述发音长度信息特征进行单调对齐融合,得到语音信息特征包括:将所述声音特征与所述发音长度信息特征进行单调对齐融合,得到目标特征;确定所述目标文本对应的情绪特征;
[0009]根据所述目标特征和所述情绪特征进行融合,得到所述语音信息特征。
[0010]在本申请的一个实施例中,所述根据所述目标特征和所述情绪特征进行融合,得到所述语音信息特征,包括:获取目标人声对应的声音特征;根据所述目标特征、所述声音特征和所述情绪特征进行融合,得到所述语音信息特征。
[0011]在本申请的一个实施例中,所述计算所述目标文本对应的文字编码数据,包括:对所述目标文本进行音素提取,得到音素信息;对所述音素信息进行发音编码,得到所述文字编码数据。
[0012]在本申请的一个实施例中,所述根据所述文字编码数据进行时长预测,得到所述目标文本的发音长度信息特征,包括:对所述文字编码数据加入噪声;根据加入噪声的文字编码数据进行时长预测,得到所述目标文本的发音长度信息特征。
[0013]本申请所述的文本转语音方法,通过将目标文本输入预先训练的文本转语音模型后,通过对所述文字编码数据进行特征提取,得到所述目标文本的声音特征;并根据得到的文字编码数据进行时长预测,得到所述目标文本的发音长度信息特征;接着将所述声音特征与所述发音长度信息特征进行单调对齐融合,得到语音信息特征,使得语音信息特征包含更多的信息,同时也降低了文本转视频的运算量;然后对所述语音信息特征进行建模,得到所述目标文本的语音信息分布;最后对所述语音信息分布进行解码,得到所述音频数据,得到目标文本对应的音频数据,上述方法降低了文本转视频的运算量,从而提高文本转语音的效率。
[0014]本申请的实施例三提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述文本转语音方法或文本转语音模型训练方法。
[0015]本申请的实施例四提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本转语音方法或文本转语音模型训练方法。
附图说明
[0016]图1是本申请一实施例提供的文本转语音模型训练方法的流程图。
[0017]图2是本申请实施例提供的一种文本转语音模型训练方法的结构示意图。
[0018]图3是本申请一实施例提供的文本转语音模型训练方法的流程图。
[0019]图4是本申请一实施例提供的文本转语音模型训练方法的流程图。
[0020]图5是本申请实施例提供的文本转语音方法的流程图。
[0021]图6是本申请实施例提供的一种电子设备的结构示意性框图。
具体实施方式
[0022]为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0023]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述在一个实施例中实施例的目的,不是旨在于限制本申请。
[0024]端到端合成降低了对语言学知识的要求,可批量实现多语种的合成系统,语音自然程度高。端到端语音合成一定程度上解决了拼接合成和参数合成存在的部分缺陷。在一个实施例中,端到端合成系统可以直接输入文本或者注音字符,通过文本或者文本特征直接建模,跳过声码器进行编码的阶段,减少了对声码器的依赖,弱化前端概念。但是其存在的缺点是文本转语音过程中运算量大,需要花费较多的时间进行处理,导致文本转语音的实时性低,文本转语音的效率较差。
[0025]为解决文本转语音过程中运算量大,文本转语音的实时性低,文本转语音的效率较差的问题,本申请实施例提供一种文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本转语音模型训练方法,其特征在于,所述方法包括:获取训练文本及所述训练文本对应的文本音频;基于预设的文本转语音模型,计算所述训练文本对应的文字编码数据;基于所述文本转语音模型,对所述训练文本对应的文字编码数据进行时长预测,得到所述训练文本的预测发音长度特征;根据所述文本音频,得到所述训练文本的实际发音长度特征;将所述预测发音长度特征与所述实际发音长度特征进行比较,得到第一损失函数;根据所述第一损失函数,调整所述文本转语音模型的参数。2.根据权利要求1所述的文本转语音模型训练方法,其特征在于,所述方法还包括:基于所述文本转语音模型,对所述训练文本对应的文字编码数据进行特征提取,得到所述训练文本的声音特征;基于所述文本转语音模型,将所述声音特征与所述预测发音长度特征进行单调对齐融合,得到预测语音信息特征;根据所述文本音频,得到所述训练文本的实际语音信息特征;将所述预测语音信息特征与所述实际语音信息特征进行比较,得到第二损失函数;根据所述第二损失函数,调整所述文本转语音模型的参数。3.根据权利要求2所述的文本转语音模型训练方法,其特征在于,所述方法还包括:基于所述文本转语音模型,对所述预测语音信息特征进行建模,得到所述训练文本的预测语音信息分布;基于所述文本转语音模型,对所述预测语音信息分布进行解码,得到目标音频数据;将所述目标音频数据与所述文本音频进行比较,得到第三损失函数;根据所述第三损失函数,调整所述文本转语音模型的参数。4.一种文本转语音方法,其特征在于,所述方法包括:将目标文本输入预先训练的文本转语音模型,得到所述目标文本的音频数据,包括:计算所述目标文本对应的文字编码数据;对所述文字编码数据进行特征提取,得到所述目标文本的声音特征;根据所述文字编码数据进行时长预测,得到所述目标文本的发音长度信息特征;将所述声音特征与所述发音长度信息特征进行单调对齐融合,得到语音信息特征;对所述语音信息特征进...

【专利技术属性】
技术研发人员:吉祥
申请(专利权)人:抖动科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1