语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38709877 阅读:11 留言:0更新日期:2023-09-08 14:52
本发明专利技术公开了一种语音合成方法、装置、电子设备及存储介质,该方法包括获取待合成文本数据,然后从用户特征向量字典中确定需要合成的目标声纹特征向量,并调用训练后的TTS模型对待合成文本数据和目标声纹特征向量进行语音合成处理,以得到目标合成语音。采用本发明专利技术实施例,能够在一个TTS模型中对用户特征向量字典中的每个声纹特征向量进行语音合成,从而能够在单个TTS模型中合成多个不同用户音色的语音数据,以此避免为了实现合成多个不同用户音色的音频数据,而需要部署与运行多个独立的TTS模型的情况,同时也避免了在部署与运行多个独立的TTS模型时所面临的技术问题。个独立的TTS模型时所面临的技术问题。个独立的TTS模型时所面临的技术问题。

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成,通常又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术,是人机语音交互中不可或缺的模块之一。
[0003]现有的TTS模型通常是通过单人语音数据训练得到的文本转语音模型,这种通过单人语音数据训练得到的模型,最终合成的音频音色均为该单人训练数据中的音色。而为了得到个性化的TTS模型,则是需要以多人语音数据为训练数据,先训练一个基础的TTS模型,然后再分别用每个单人语音数据,在之前的基础TTS模型进行逐个迁移训练,以此得到多个个性化TTS模型,其中,每个用户的个性化TTS模型都是独立的,且模型结构与参数大小与基础TTS模型相同。
[0004]然而,这种个性化TTS模型在部署应用时,是需要独立部署与运行每个用户的个性化TTS模型,当用户量较大时,将会出现服务器的部署耗时变长、占用磁盘存储空间增加、运行内存占用变大等各种问题,且随着用户量的增加,所面对的问题程度也更加麻烦。

技术实现思路

[0005]本专利技术实施例的目的是提供一种语音合成方法、装置、电子设备及存储介质,以解决在部署与运行多用户的个性化TTS模型时所面临的技术问题。
[0006]在第一方面,为实现上述目的,本专利技术实施例提供了一种语音合成方法,包括:
[0007]获取待合成文本数据;
[0008]从用户特征向量字典中,确定需要合成的目标声纹特征向量;
[0009]调用训练后的TTS模型对所述待合成文本数据和目标声纹特征向量进行语音合成处理,以得到目标合成语音;其中,所述TTS模型是通过所述用户特征向量字典中的所有声纹特征向量、多个文本数据,以及分别与各声纹特征向量和各所述文本数据对应的音频数据训练得到的。
[0010]进一步的,在所述从用户特征向量字典中,确定需要合成的目标声纹特征向量的步骤之前,所述语音合成方法还包括:
[0011]获取多个不同用户的音频数据;
[0012]调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理,以得到每个用户对应的声纹特征向量;
[0013]根据每个用户对应的声纹特征向量,构建所述多个不同用户的用户特征向量字典。
[0014]进一步的,所述调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理,以得到每个用户对应的声纹特征向量的步骤,包括:
[0015]调用训练后的声纹编码模型对每个用户对应的多个音频数据进行编码处理,以得到每个用户对应的多个音频特征向量;
[0016]计算每个用户对应的多个音频特征向量的均值,并将所述均值作为对应用户的声纹特征向量。
[0017]进一步的,在所述调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理的步骤之前,所述语音合成方法还包括:
[0018]获取若干个用户的待训练音频数据;
[0019]对所述待训练音频数据进行编码处理,以得到编码处理后的声纹特征向量;
[0020]将所述待训练音频数据和与所述待训练音频数据对应的声纹特征向量作为训练集,对待训练的声纹编码模型进行训练,并根据预设的损失函数对所述待训练的声纹编码模型的模型参数进行优化,以得到训练后的声纹编码模型。
[0021]进一步的,所述待训练的声纹编码模型包括多层长短期记忆模型、线性层以及归一化层;
[0022]所述线性层和归一化层依次设于堆叠的多层长短期记忆模型之后。
[0023]进一步的,在所述调用训练后的TTS模型对所述待合成文本数据和目标声纹特征向量进行语音合成处理的步骤之前,所述语音合成方法还包括:
[0024]根据所述用户特征向量字典中的所有声纹特征向量,确定各所述声纹特征向量对应的待训练用户;
[0025]获取各所述待训练用户根据预设的文本数据,输入的待训练音频数据;
[0026]将所述预设的文本数据、各待训练用户对应的声纹特征向量,以及与各所述待训练用户对应的待训练音频数据作为训练数据,对待训练的Glow TTS模型进行训练,并在训练过程中,分别将训练数据中的声纹特征向量添加至编码器的输出向量和解码器的输入向量中进行训练直至收敛,以此构建训练后的TTS模型。
[0027]进一步的,所述预设的损失函数包括GE2E损失函数。
[0028]在第二方面,为了解决相同的技术问题,本专利技术实施例提供了一种语音合成装置,包括:
[0029]第一获取模块,用于获取待合成文本数据;
[0030]确定模块,用于从用户特征向量字典中,确定需要合成的目标声纹特征向量;
[0031]合成模块,用于调用训练后的TTS模型对所述待合成文本数据和目标声纹特征向量进行语音合成处理,以得到目标合成语音;其中,所述TTS模型是通过所述用户特征向量字典中的所有声纹特征向量、多个文本数据,以及分别与各声纹特征向量和各所述文本数据对应的音频数据训练得到的。
[0032]在第三方面,为了解决相同的技术问题,本专利技术实施例提供了一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现上述任一项所述的语音合成方法中的步骤。
[0033]在第四方面,为了解决相同的技术问题,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的语音合成方法中的步骤。
[0034]本专利技术实施例提供了一种语音合成方法、装置、电子设备及存储介质,该方法通过从用户特征向量字典中确定需要合成的目标声纹特征向量,并调用训练后的TTS模型对待合成文本数据和目标声纹特征向量进行语音合成处理,能够在一个TTS模型中对用户特征向量字典中的每个声纹特征向量进行语音合成,从而能够在单个TTS模型中合成多个不同用户音色的语音数据,以此避免为了实现合成多个不同用户音色的音频数据,而需要部署与运行多个独立的TTS模型的情况,同时也避免了在部署与运行多个独立的TTS模型时所面临的技术问题。
附图说明
[0035]图1是本专利技术实施例提供的语音合成方法的一种流程示意图;
[0036]图2是本专利技术实施例提供的语音合成方法的另一种流程示意图;
[0037]图3是本专利技术实施例提供的个性化TTS模型的训练方法的一种流程示意图;
[0038]图4是本专利技术实施例提供的语音合成装置的一种结构示意图;
[0039]图5是本专利技术实施例提供的语音合成装置的另一种结构示意图;
[0040]图6是本专利技术实施例提供的电子设备的一种结构示意图;
[0041]图7是本专利技术实施例提供的电子设备的另一种结构示意图。
具体实施方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成文本数据;从用户特征向量字典中,确定需要合成的目标声纹特征向量;调用训练后的TTS模型对所述待合成文本数据和目标声纹特征向量进行语音合成处理,以得到目标合成语音;其中,所述TTS模型是通过所述用户特征向量字典中的所有声纹特征向量、多个文本数据,以及分别与各声纹特征向量和各所述文本数据对应的音频数据训练得到的。2.如权利要求1所述的语音合成方法,其特征在于,在所述从用户特征向量字典中,确定需要合成的目标声纹特征向量的步骤之前,所述语音合成方法还包括:获取多个不同用户的音频数据;调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理,以得到每个用户对应的声纹特征向量;根据每个用户对应的声纹特征向量,构建所述多个不同用户的用户特征向量字典。3.如权利要求2所述的语音合成方法,其特征在于,所述调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理,以得到每个用户对应的声纹特征向量的步骤,包括:调用训练后的声纹编码模型对每个用户对应的多个音频数据进行编码处理,以得到每个用户对应的多个音频特征向量;计算每个用户对应的多个音频特征向量的均值,并将所述均值作为对应用户的声纹特征向量。4.如权利要求2所述的语音合成方法,其特征在于,在所述调用训练后的声纹编码模型对每个用户对应的音频数据进行编码处理的步骤之前,所述语音合成方法还包括:获取若干个用户的待训练音频数据;对所述待训练音频数据进行编码处理,以得到编码处理后的声纹特征向量;将所述待训练音频数据和与所述待训练音频数据对应的声纹特征向量作为训练集,对待训练的声纹编码模型进行训练,并根据预设的损失函数对所述待训练的声纹编码模型的模型参数进行优化,以得到训练后的声纹编码模型。5.如权利要求3所述的语音合成方法,其特征在于,所述待训练的声纹编码模型包括多层长短期记忆模型、线性层以及归一化层...

【专利技术属性】
技术研发人员:朱志浩
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1