语音合成方法、装置、存储介质及电子设备制造方法及图纸

技术编号：32436460 阅读：22 留言：0更新日期：2022-02-26 07:54

本申请实施例公开了一种语音合成方法、装置、存储介质及电子设备，属于计算机技术领域。方法包括：服务器将文本数据转换成至少一个音素序列，文本数据设置有至少一个呼吸声标签，基于预训练的语音合成模型对至少一个音素序列进行语音合成处理得到文本数据对应的梅尔频谱，基于文本数据对应的梅尔频谱得到所述文本数据对应的合成语音，合成语音包括至少一个呼吸声标签对应的呼吸声，增强合成语音的真实感，使其更能接近真人语音，进而提升用户体验。进而提升用户体验。进而提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、存储介质及电子设备

[0001]本申请涉及计算机
，尤其涉及一种语音合成方法、装置、存储介质及电子设备。

技术介绍

[0002]随着人工智能技术的发展，TTS(Text To Speech，语音合成技术)也随之得到了发展，语音合成技术可用于将文本数据转换成自然语音，其应用场景较为广泛，如：应用于语音字典、新闻播报、短信播报、电子书朗读等场景中，但在相关技术中，语音合成过程较为复杂，由此生成的语音过于生硬，与真人讲话的声音存在较大差别，导致用户体验较差。

技术实现思路

[0003]本申请实施例提供了一种语音合成方法、装置、存储介质及电子设备，可以解决相关技术中通过不能合成真实感较强的语音的问题。所述技术方案如下：
[0004]第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：
[0005]将文本数据转换成至少一个音素序列；其中，所述文本数据设置有至少一个呼吸声标签；
[0006]基于预训练的语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱；
[0007]基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音；其中，所述合成语音包括所述至少一个呼吸声标签对应的呼吸声。
[0008]第二方面，本申请实施例提供了一种语音合成装置，所述语音合成装置包括：
[0009]转换模块，用于将文本数据转换成至少一个音素序列；其中，所述文本数据设置有至少一个呼吸声标签；
[0010]第一处理模块...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：将文本数据转换成至少一个音素序列；其中，所述文本数据设置有至少一个呼吸声标签；基于预训练的语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱；基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音；其中，所述合成语音包括所述至少一个呼吸声标签对应的呼吸声。2.根据权利要求1所述的方法，其特征在于，所述将文本数据转换成至少一个音素序列，包括：获取原始文本数据；对所述原始文本数据进行呼吸声标签标注得到文本数据；其中，所述文本数据设置有至少一个呼吸声标签；将所述文本数据转换成所述至少一个音素序列。3.根据权利要求2所述的方法，其特征在于，所述对所述原始文本数据进行呼吸声标签标注得到文本数据，包括：确定所述至少一个呼吸声标签所对应的位置信息；其中，所述位置信息为所述至少一个呼吸声标签在所述原始文本数据中的位置信息；基于所述位置信息为所述原始文本数据标注上所述至少一个呼吸声标签得到所述文本数据。4.根据权利要求3所述的方法，其特征在于，所述至少一个呼吸声标签中包括呼吸声对应的时长信息。5.根据权利要求3所述的方法，其特征在于，所述确定所述至少一个呼吸声标签所对应的位置信息，包括：分析所述原始文本数据得到断句信息；基于所述断句信息确定所述至少一个呼吸声标签所对应的所述位置信息。6.根据权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：杨惠，舒景辰，梁光，吴雨璇，周鼎皓，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人