语音合成方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：31482833 阅读：17 留言：0更新日期：2021-12-18 12:17

本公开提供了语音合成方法、装置、电子设备以及存储介质，涉及计算机技术领域，尤其涉及深度学习、语音技术等人工智能技术领域。具体实现方案为：获取待合成的目标文本，以及说话者的标识；获取所述目标文本中至少一个字符的发音信息；根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音。由此，使得对于一种语言下的说话者，能够实现多种语言下文本的语音合成。实现多种语言下文本的语音合成。实现多种语言下文本的语音合成。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备以及存储介质

[0001]本公开涉及计算机
，特别涉及深度学习、语音技术等人工智能
，尤其涉及语音合成方法、装置、电子设备以及存储介质。

技术介绍

[0002]语音合成技术，是将文本信息转变为可懂的、自然的、拟人的语音信息的技术，广泛应用于新闻播报、车载导航、智能音箱等领域。
[0003]随着语音合成技术的应用场景的不断增加，对多语言语音合成的需求越来越大。然而，由于通常一个说话人只会讲一种语言，单人多语言语料的获取难度大，因此相关技术中的语音合成技术通常仅支持单人单语言的语音合成。如何实现单人多语言的语音合成，对于扩大语音合成的应用场景具有重要意义。

技术实现思路

[0004]本公开提供了一种语音合成方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面，提供了一种语音合成方法，包括：获取待合成的目标文本，以及说话者的标识；获取所述目标文本中至少一个字符的发音信息；根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，包括：获取待合成的目标文本，以及说话者的标识；获取所述目标文本中至少一个字符的发音信息；根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征；根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音。2.根据权利要求1所述的方法，其中，所述根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征，包括：根据所述目标文本中所述至少一个字符的发音信息，确定所述至少一个字符包含的音素，以及所述音素组合得到的音节或词所对应的音调；根据所述目标文本所属的目标语言类型，对所述音素添加后缀，以及确定所述音调的音调编码；根据添加所述后缀后的所述音素和所述音调编码，以及所述音素在所属音节中的位置和/或所述音节在所属词中的位置，生成所述语言学特征中对应的特征项。3.根据权利要求2所述的方法，其中，所述根据所述目标文本中所述至少一个字符的发音信息，确定所述至少一个字符包含的音素，以及所述音素组合得到的音节或词所对应的音调，包括：对所述目标文本中所述至少一个字符，根据所述字符的发音信息中的声调、重音和儿化音中的一个或多个组合，确定所述音素组合得到的音节或词所对应的音调。4.根据权利要求2所述的方法，其中，所述根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行特征提取，以生成所述目标文本的语言学特征，还包括：根据所述目标文本所属的目标语言，对所述目标文本分词，并确定各分词词汇对应的韵律；根据各所述分词词汇对应的韵律，生成所述语言学特征中对应的特征项。5.根据权利要求1
‑
4任一项所述的方法，其中，所述根据所述目标文本的语言学特征和所述说话者的标识，进行语音合成，以得到目标语音，包括：将所述目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码；将所述说话者的标识，输入所述语音合成模型的第二编码器，得到所述说话者的音色编码；将所述语言学特征和所述说话者的标识，输入所述语音合成模型的风格网络得到所述目标文本和所述说话者对应的风格编码；将所述风格编码、所述特征编码和所述音色编码融合，得到融合编码；采用所述语音合成模型的解码器对所述融合编码进行解码，以得到所述目标语音的声学谱。6.根据权利要求5所述的方法，其中，所述将所述目标文本的语言学特征，输入语音合成模型的第一编码器，得到特征编码之前，还包括：
根据所述语音合成模型的所述第一编码器、所述第二编码器、所述解码器和参考网络，生成训练模型；其中，所述第一编码器、所述第二编码器和所述参考网络的输出与所述解码器的输入连接；采用训练数据，对所述训练模型和所述风格网络进行训练；根据训练后的所述训练模型中所述第一编码器、所述第二编码器和所述解码器，以及经过训练的所述风格网络，生成所述语音合成模型。7.根据权利要求6所述的方法，其中，所述训练数据包括文本样本的语言学特征，以及所述文本样本对应的语音样本和所述语音样本的说话者标识；所述采用训练数据，对所述训练模型和所述风格网络进行训练，包括：将所述文本样本的语言学特征输入所述训练模型中的所述第一编码器，将所述语音样本的说话者标识输入所述训练模型的所述第二编码器；将所述语音样本输入所述训练模型的参考网络；对所述参考网络的输出、所述第一编码器的输出和所述第二编码器的输出进行融合，并采用所述训练模型中的所述解码器解码，以得到预测声学谱；根据所述预测声学谱与所述语音样本的声学谱之间的差异，对所述训练模型进行模型参数调整；将所述文本样本的语言学特征和所述语音样本的说话者标识输入所述风格网络；根据所述风格网络的输出与所述参考网络的输出之间的差异，对所述风格网络进行模型参数调整。8.一种语音合成装置，包括：第一获取模块，用于获取待合成的目标文本，以及说话者的标识；第二获取模块，用于获取所述目标文本中至少一个字符的发音信息；提取模块，用于根据所述目标文本所属的目标语言，对所述目标文本中所述至少一个字符的所述发音信息进行...

【专利技术属性】
技术研发人员：张君腾，吴建民，孙涛，贾磊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人