语音的合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40959025 阅读：26 留言：0更新日期：2024-04-18 20:36

本公开提供了一种语音的合成方法，包括：获取关于原始文本的语气特征数据，构建语气标注文本，其中语气特征数据包括多个语气特征及其插入位置；将语气标注文本与目标说话人的声音特征进行合并，形成包含语气特征的融合文本；以及调用语音合成模块对融合文本进行音频转换，构建具备语气特征的目标合成音频。本公开还提供了一种语音的合成装置、电子设备及存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及深度学习，本公开尤其涉及一种语音的合成方法、装置、电子设备及存储介质。

技术介绍

1、随着深度学习技术的发展，基于神经网络的语音合成模型也取得了显著的进展。这些模型通过学习文本到音频的映射关系，能够生成自然、流畅的语音，且具有极高的表现力和逼真度。

2、但是，相关技术中的语音合成模型过于依赖训练数据，语音合成模型需要大量高表现力语音数据及其文本数据作为训练样本，才能输出高表现力合成语音。然而，高表现力语音数据的采集以及文本数据的标注，均需要消耗较高的人力成本，而且对于样本的质量和多样性要求较高，使得构建大规模高质量的训练数据集变得困难，因此也限制了模型的表现能力。另外，相关技术的构建方法不能使已有的一些不具备高表现力的说话人得到充分利用，造成了说话人资源的浪费。

技术实现思路

1、为了解决上述技术问题中的至少一个，本公开提供了一种语音的合成方法、装置、电子设备及存储介质。

2、本公开的一个方面提供了一种语音的合成方法，包括：获取关于原始文本的语气特征数据，...

【技术保护点】

1.一种语音的合成方法，其特征在于，包括：

2.根据权利要求1所述的语音的合成方法，其特征在于，所述将所述语气标注文本与目标说话人的音色特征进行合并，形成包含语气特征的融合文本，包括：

3.根据权利要求1所述的语音的合成方法，其特征在于，所述调用语音合成模块对所述融合文本进行音频转换，构建具备所述语气特征的目标合成音频，包括：

4.根据权利要求1所述的语音的合成方法，其特征在于，在所述获取关于原始文本的语气特征数据，构建语气标注文本之前包括：

5.根据权利要求4所述的语音的合成方法，其特征在于，所述调用目标数量的语气标注样本对基础合成模型进...

【技术特征摘要】

1.一种语音的合成方法，其特征在于，包括：

4.根据权利要求1所述的语音的合成方法，其特征在于，在所述获取关于原始文本的语气特征数据，构建语气标注文本之前包括：

5.根据权利要求4所述的语音的合成方法，其特征在于，所述调用目标数量的语气标注样本对基础...

【专利技术属性】
技术研发人员：史文婧，王瑞，江明奇，殷昊，陈云琳，
申请(专利权)人：出门问问创新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人