语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38709877 阅读：11 留言：0更新日期：2023-09-08 14:52

本发明专利技术公开了一种语音合成方法、装置、电子设备及存储介质，该方法包括获取待合成文本数据，然后从用户特征向量字典中确定需要合成的目标声纹特征向量，并调用训练后的TTS模型对待合成文本数据和目标声纹特征向量进行语音合成处理，以得到目标合成语音。采用本发明专利技术实施例，能够在一个TTS模型中对用户特征向量字典中的每个声纹特征向量进行语音合成，从而能够在单个TTS模型中合成多个不同用户音色的语音数据，以此避免为了实现合成多个不同用户音色的音频数据，而需要部署与运行多个独立的TTS模型的情况，同时也避免了在部署与运行多个独立的TTS模型时所面临的技术问题。个独立的TTS模型时所面临的技术问题。个独立的TTS模型时所面临的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成，通常又称文语转换(Text To Speech，TTS)，是一种可以将任意输入文本转换成相应语音的技术，是人机语音交互中不可或缺的模块之一。
[0003]现有的TTS模型通常是通过单人语音数据训练得到的文本转语音模型，这种通过单人语音数据训练得到的模型，最终合成的音频音色均为该单人训练数据中的音色。而为了得到个性化的TTS模型，则是需要以多人语音数据为训练数据，先训练一个基础的TTS模型，然后再分别用每个单人语音数据，在之前的基础TTS模型进行逐个迁移训练，以此得到多个个性化TTS模型，其中，每个用户的个性化TTS模型都是独立的，且模型结构与参数大小与基础TTS模型相同。
[0004]然而，这种个性化TTS模型在部署应用时，是需要独立部署与运行每个用户的个性化TTS模型，当用户量较大时，将会出现服务器的部署耗时变长、占用磁盘存储空间增加、运行内存占用变大等各种问题，且随着用户量的增加，所面对的问题程度也更加麻烦。

技术实现思路

[0005]本专利技术实施例的目的是提供一种语音合成方法、装置、电子设备及存储介质，以解决在部署与运行多用户的个性化TTS模型时所面临的技术问题。
[0006]在第一方面，为实现上述目的，本专利技术实施例提供了一种语音合成方法，包括：
[0007]获取待合成文本数据；
[...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待合成文本数据；从用户特征向量字典中，确定需要合成的目标声纹特征向量；调用训练后的TTS模型对所述待合成文本数据和目标声纹特征向量进行语音合成处理，以得到目标合成语音；其中，所述TTS模型是通过所述用户特征向量字典中的所有声纹特征向量、多个文本数据，以及分别与各声纹特征向量和各所述文本数据对应的音频数据训练得到的。2.如权利要求1所述的语音合成方法，其特征在于，在所述从用户特征向量字典中，确定需要合成的目标声纹特征向量的步骤之前，所述语音合成方法还包括：获取多个不同用户的音频数据；调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理，以得到每个用户对应的声纹特征向量；根据每个用户对应的声纹特征向量，构建所述多个不同用户的用户特征向量字典。3.如权利要求2所述的语音合成方法，其特征在于，所述调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理，以得到每个用户对应的声纹特征向量的步骤，包括：调用训练后的声纹编码模型对每个用户对应的多个音频数据进行编码处理，以得到每个用户对应的多个音频特征向量；计算每个用户对应的多个音频特征向量的均值，并将所述均值作为对应用户的声纹特征向量。4.如权利要求2所述的语音合成方法，其特征在于，在所述调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理的步骤之前，所述语音合成方法还包括：获取若干个用户的待训练音频数据；对所述待训练音频数据进行编码处理，以得到编码处理后的声纹特征向量；将所述待训练音频数据和与所述待训练音频数据对应的声纹特征向量作为训练集，对待训练的声纹编码模型进行训练，并根据预设的损失函数对所述待训练的声纹编码模型的模型参数进行优化，以得到训练后的声纹编码模型。5.如权利要求3所述的语音合成方法，其特征在于，所述待训练的声纹编码模型包括多层长短期记忆模型、线性层以及归一化层...

【专利技术属性】
技术研发人员：朱志浩，
申请(专利权)人：TCL科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人