用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质制造方法及图纸

技术编号：37451356 阅读：26 留言：0更新日期：2023-05-06 09:23

本申请涉及用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及相应的计算机可读存储介质。按照本发明专利技术一个方面的用于智能客服场景的语音合成模型训练方法。该语音合成模型包括编码器、自适应器和解码器。该训练方法包括：将多个音素训练样本输入到编码器，获得多个编码建模单元；利用自适应器对多个编码建模单元进行样本要素预测，获得多个预测建模单元；将多个编码建模单元和多个预测建模单元输入到解码器，得到梅尔谱信息；以及基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息，对语音合成模型进行训练，直到达到语音合成模型的训练条件为止。音合成模型的训练条件为止。音合成模型的训练条件为止。

全部详细技术资料下载

【技术实现步骤摘要】
用于智能客服场景的语音合成模型训练方法、语音合成方法及装置、计算机可读存储介质

[0001]本申请涉及语音合成领域，具体而言，涉及用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及计算机可读存储介质。

技术介绍

[0002]目前的语音合成系统中，普遍使用注意力(attention)机制来处理编码后的建模单元。因为语音合成系统的输入和输出长度不对等，使用注意力机制会导致在长文本中将一些短输出(短文本、停顿等)跳过的情况，从而导致漏字。此外，此类语音合成系统对每个建模单元的合成和输出都需要基于前一输出的结果，于是依次合成和输出也导致了合成速率较慢。

技术实现思路

[0003]本申请的实施例提供了用于智能客服场景的语音合成模型训练方法、语音合成方法及装置以及计算机可读存储介质。
[0004]根据本申请的一方面，提供了一种用于智能客服场景的语音合成模型训练方法。该语音合成模型包括编码器、自适应器和解码器。该训练方法包括：将多个音素训练样本输入到编码器，获得多个编码建模单元；利用自适应器对多个编码建模单元进行样本要素预测，获得多个预测建模单元；将多个编码建模单元和多个预测建模单元输入到解码器，得到梅尔谱信息；以及基于梅尔谱信息和多个音素训练样本的预设梅尔谱信息，对语音合成模型进行训练，直到达到语音合成模型的训练条件为止。
[0005]在本申请的一些实施例中，可选地，，样本要素包括以下的一项或多项：持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息。
[0006]在本申...

【技术保护点】

【技术特征摘要】
1.一种用于智能客服场景的语音合成模型训练方法，其特征在于，所述语音合成模型包括编码器、自适应器和解码器，所述训练方法包括：将多个音素训练样本输入到所述编码器，获得多个编码建模单元；利用所述自适应器对所述多个编码建模单元进行样本要素预测，获得多个预测建模单元；将所述多个编码建模单元和所述多个预测建模单元输入到所述解码器，得到梅尔谱信息；以及基于所述梅尔谱信息和所述多个音素训练样本的预设梅尔谱信息，对所述语音合成模型进行训练，直到达到所述语音合成模型的训练条件为止。2.根据权利要求1所述的训练方法，其特征在于，所述样本要素包括以下的一项或多项：持续时间信息、能量信息、基频F0信息、韵律信息、说话人信息。3.根据权利要求2所述的训练方法，其特征在于，所述样本要素预测先执行对持续时间信息的预测。4.根据权利要求1所述的训练方法，其特征在于，同时将所述多个音素训练样本输入到所述语音合成模型进行训练。5.一种用于智能客服场景的语音合成方法，其特征在于，包括：对待合成文本进行转换处理，以得到多个音素单元；将所述多个音素单元输入到语音合成模型中，得到所述多个音素单元的梅尔谱信息；以及对所述梅尔谱信息进行整合处理以得到与所述待合成文本对应的语音，其中，所述语音合成模型是根据权利要求1
‑
3中任一项所述的训练方法训练得到的。6.根据权利要求5所述的语音合成方法，其特征在于，所述转换处理包括分词、正则化、字素到音素(G2P)转换和多音字处理。7.根据权利要求5所述的语音合成方法，其特征在于，所述方法还包括：对所...

【专利技术属性】
技术研发人员：石岩，游浩，童琪琪，王晴，
申请(专利权)人：证通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人