语音合成方法、装置、可读介质及电子设备制造方法及图纸

技术编号：35142840 阅读：14 留言：0更新日期：2022-10-05 10:19

本公开涉及一种语音合成方法、装置、可读介质及电子设备。所述方法包括：确定待处理的目标文本的声调标注信息，其中，所述声调标注信息包括所述目标文本中各文本单元的连读变调类型，其中，所述文本单元由至少一个单位文本构成，文本单元的连读变调类型用于指示该文本单元的音高变化趋势；确定所述目标文本的韵律标注信息和所述目标文本对应的音素序列；根据所述声调标注信息、所述韵律标注信息和所述音素序列，生成与所述目标文本对应的合成音频。由此，在针对目标文本进行语音合成时，引入了连读变调特征，从而，能够在语音合成时对连读变调方式进行直接控制，提升了语音合成中对于连读变调现象可控性，进而合成语音的自然度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、可读介质及电子设备

[0001]本公开涉及计算机
，具体地，涉及一种语音合成方法、装置、可读介质及电子设备。

技术介绍

[0002]语音合成技术能够将任意文本转换成对应的音频，通常包括两个部分，一部分是对文本进行分析，得到语言学相关的信息，另一部分则是基于分析得出的结果生成声音波形。在相关技术中，通常缺乏对连读变调这一特征的学习，使得合成语音的声调无法得到有效控制，导致合成后的音频不够自然。

技术实现思路

[0003]提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面，本公开提供一种语音合成方法，所述方法包括：
[0005]确定待处理的目标文本的声调标注信息，其中，所述声调标注信息包括所述目标文本中各文本单元的连读变调类型，其中，所述文本单元由至少一个单位文本构成，文本单元的连读变调类型用于指示该文本单元的音高变化趋势；
[0006]确定所述目标文本的韵律标注信息和所述目标文本对应的音素序列；
[0007]根据所述声调标注信息、所述韵律标注信息和所述音素序列，生成与所述目标文本对应的合成音频。
[0008]第二方面，本公开提供一种语音合成装置，所述装置包括：
[0009]第一确定模块，用于确定待处理的目标文本的声调标注信息，其中，所述声调标注信息包括所述目标文本中各...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：确定待处理的目标文本的声调标注信息，其中，所述声调标注信息包括所述目标文本中各文本单元的连读变调类型，其中，所述文本单元由至少一个单位文本构成，文本单元的连读变调类型用于指示该文本单元的音高变化趋势；确定所述目标文本的韵律标注信息和所述目标文本对应的音素序列；根据所述声调标注信息、所述韵律标注信息和所述音素序列，生成与所述目标文本对应的合成音频。2.根据权利要求1所述的方法，其特征在于，所述根据所述声调标注信息、所述韵律标注信息和所述音素序列，生成与所述目标文本对应的合成音频，包括：根据所述声调标注信息，确定所述目标文本对应的连读变调标签序列；根据所述韵律标注信息，确定所述目标文本对应的韵律标签序列；根据所述连读变调标签序列、所述韵律标签序列和所述音素序列，利用预先训练的语音合成模型，生成与所述目标文本对应的声学特征信息；利用声码器对所述声学特征信息进行语音合成，以生成与所述目标文本对应的合成音频。3.根据权利要求2所述的方法，其特征在于，所述语音合成模型包括编码网络、注意力网络和解码网络；其中：所述编码网络用于根据与所述连读变调标签序列、所述韵律标签序列和所述音素序列对应的拼接向量，生成文本表征序列；所述注意力网络用于根据所述文本表征序列，生成语义表征；所述解码网络用于根据所述语义表征，输出与所述目标文本对应的声学特征信息。4.根据权利要求2所述的方法，其特征在于，所述语音合成模型通过以下方式获得：获取第一训练样本，其中，每一所述第一训练样本包括第一训练文本对应的训练音素序列、训练连读变调标签序列、训练韵律标签序列，以及所述第一训练文本对应的训练声学特征信息；通过将与所述训练音素序列、所述训练连读变调标签序列和所述训练韵律标签序列对应的拼接向量作为模型的输入，并将所述训练声学特征信息作为模型的目标输出的方式进行模型训练，以得到训练完成的所述语音合成模型。5.根据权利要求1所述的方法，其特征在于，所述确定待处理的目标文本的声调标注信息，包括：将所述目标文本输入至声调标注模型，获得所述声调标注模型的输出结果，其中，所述声调标注模型基于带有声调标注信息的第二训练文本训练得到，所述输出结果包括用于将所述目标文本划分为多个文本单元的边界信息和每一文本单元各自对应的连读变调类型；根据所述输出结果，确定所述目标文本的声调标注信息。6.根据权利要求5所述的方法，其特征在于，所述根据所述输出...

【专利技术属性】
技术研发人员：王奕桦，梅晓，马泽君，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人