文本转语音模型训练方法、文本转语音方法及相关设备技术

技术编号：38330370 阅读：12 留言：0更新日期：2023-07-29 09:13

本申请涉及人工智能领域，提供一种文本转语音模型训练方法、文本转语音方法及相关设备，所述文本转语音模型训练方法包括：获取训练文本及所述训练文本对应的文本音频；对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；根据所述文本音频，得到所述训练文本的实际发音长度特征；将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；根据所述第一损失函数，调整文本转语音模型的参数。利用上述方法能够提高文本转语音模型的进度，使得训练完成的文本转语音模型具有更准确的预测发音长度的能力，从而提高了文本转语音的准确率。确率。确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本转语音模型训练方法、文本转语音方法及相关设备

[0001]本申请涉及人工智能
，具体涉及一种文本转语音模型训练方法、文本转语音方法及相关设备。

技术介绍

[0002]语音合成又称文语转换(Text to Speech，TTS)技术，是语音处理领域的一个重要研究方向，旨在让机器生成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内，也可以作为尾部环节嵌入到语音交互的整体方案之中。语音合成模型经过长时间的发展，由最初的基于拼接合成，到参数合成，逐渐达到了现阶段感情充沛的、基于端到端合成。然而，基于端到端合成的文本转语音的方法往往运算量极大，导致文本转语音的效率较差。

技术实现思路

[0003]鉴于以上内容，有必要提出一种文本转语音模型训练方法、文本转语音方法及相关设备，能够降低文本转语音的运算量并提高文本转语音的效率。
[0004]本申请的实施例一提供一种文本转语音模型训练方法，所述方法包括：获取训练文本及所述训练文本对应的文本音频；基于预设的文本转语音模型，计算所述训练文本对应的文字编码数据；基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；根据所述文本音频，得到所述训练文本的实际发音长度特征；将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；根据所述第一损失函数，调整文本转语音模型的参数。
[0005]在本申请的一个实施例中，所述方法还包括：基于所述文本转语音模型，对所述训练文本对应的文...

【技术保护点】

【技术特征摘要】
1.一种文本转语音模型训练方法，其特征在于，所述方法包括：获取训练文本及所述训练文本对应的文本音频；基于预设的文本转语音模型，计算所述训练文本对应的文字编码数据；基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；根据所述文本音频，得到所述训练文本的实际发音长度特征；将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；根据所述第一损失函数，调整所述文本转语音模型的参数。2.根据权利要求1所述的文本转语音模型训练方法，其特征在于，所述方法还包括：基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行特征提取，得到所述训练文本的声音特征；基于所述文本转语音模型，将所述声音特征与所述预测发音长度特征进行单调对齐融合，得到预测语音信息特征；根据所述文本音频，得到所述训练文本的实际语音信息特征；将所述预测语音信息特征与所述实际语音信息特征进行比较，得到第二损失函数；根据所述第二损失函数，调整所述文本转语音模型的参数。3.根据权利要求2所述的文本转语音模型训练方法，其特征在于，所述方法还包括：基于所述文本转语音模型，对所述预测语音信息特征进行建模，得到所述训练文本的预测语音信息分布；基于所述文本转语音模型，对所述预测语音信息分布进行解码，得到目标音频数据；将所述目标音频数据与所述文本音频进行比较，得到第三损失函数；根据所述第三损失函数，调整所述文本转语音模型的参数。4.一种文本转语音方法，其特征在于，所述方法包括：将目标文本输入预先训练的文本转语音模型，得到所述目标文本的音频数据，包括：计算所述目标文本对应的文字编码数据；对所述文字编码数据进行特征提取，得到所述目标文本的声音特征；根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征；将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征；对所述语音信息特征进...

【专利技术属性】
技术研发人员：吉祥，
申请(专利权)人：抖动科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人