一种语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36450003 阅读：58 留言：0更新日期：2023-01-25 22:46

本申请实施例提供了一种语音合成方法、装置、电子设备及存储介质，属于语音处理技术领域。该方法包括：对获取到的样本文本进行预处理，得到样本文本的样本音素特征；基于预设扩散模型中的声学特征生成器对样本音素特征进行特征转换，对转换后的样本音素特征进行变量映射，得到隐藏序列；基于声学特征生成器对隐藏序列进行解码，得到样本音素特征的梅尔频谱；对梅尔频谱进行噪声扩散，得到噪声扩散样本；将梅尔频谱以及噪声扩散样本输入到预设扩散模型进行训练，得到去噪模型；将获取到的目标文本输入去噪模型进行音波合成，得到与目标文本对应的语音波形。本申请实施例能够提高语音合成的质量以及稳定性，提高梅尔频谱的保真度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、装置、电子设备及存储介质

[0001]本申请涉及语音处理
，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音信号处理技术的发展，语音合成逐渐成为语音信号处理领域的重要研究分支，其中，最常见的语音合成的技术手段为基于TTS(Text To Speech，从文本到语音)对语音进行合成，从文本到语音合成是一个典型的多模态生成任务，这一任务将给定的文本输入序列转化为具有不同说话者身份、情绪、风格的语音输出。目前，主流的文本到语音合成系统主要文本前端、声学模型以及声码器三个部分组成，通过文本到语音合成系统可以实现对目标说话人的语音波形的构建，然而，在具有多个说话人的从文本到语音任务中，现有的基于自回归方法的模型在推理时会不断累积预测误差，导致生成的合成语音出现跳字、重复等问题，从而影响了生成语音的质量。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种语音合成方法、装置、电子设备及存储介质，能够提高语音合成的质量以及稳定性，提高梅尔频谱的保真度。<br/>[0004]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：对获取到的样本文本进行预处理，得到所述样本文本的样本音素特征；基于预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列；基于所述声学特征生成器对所述隐藏序列进行解码，得到所述样本音素特征的梅尔频谱；对所述梅尔频谱进行噪声扩散，得到噪声扩散样本；将所述梅尔频谱以及所述噪声扩散样本输入到所述预设扩散模型进行训练，得到去噪模型；将获取到的目标文本输入所述去噪模型进行音波合成，得到与所述目标文本对应的语音波形。2.根据权利要求1所述的语音合成方法，其特征在于，所述预设扩散模型包括文本前端模块；所述将获取到的样本文本进行预处理，得到所述样本文本的样本音素特征，包括：将所述样本文本输入所述文本前端模块进行同形异码替换，得到替换文本；对所述替换文本进行文本规范，得到音素序列；根据所述音素序列生成所述样本音素特征。3.根据权利要求2所述的语音合成方法，其特征在于，所述声学特征生成器包括编码器和适配器；所述基于所述预设扩散模型中的声学特征生成器对所述样本音素特征进行特征转换，对转换后的所述样本音素特征进行变量映射，得到隐藏序列，包括：将所述样本音素特征中的所述音素序列输入所述声学特征生成器中的所述编码器进行序列转换，得到转换结果；对所述样本音素特征进行标注，得到所述样本音素特征的音频能量标签、音调标签以及时长标签；将所述转换结果、所述音频能量标签、所述音调标签以及所述时长标签输入所述适配器进行变量映射，得到所述隐藏序列。4.根据权利要求3所述的语音合成方法，其特征在于，所述适配器包括时长预测器、能量预测器和音高预测器；所述将所述转换结果、所述音频能量标签、所述音调标签以及所述时长标签输入所述适配器进行变量映射，得到所述隐藏序列，包括：将所述时长标签输入所述时长预测器进行预测，得到时长信息；将所述音频能量标签输入所述能量预测器进行预测，得到音频能量信息；将所述音调标签输入所述音高预测器进行预测，得到音调信息；将所述时长信息、所述音频能量信息以及所述音调信息添加至所述转换结果，生成所述隐藏序列。5.根据权利要求1所述的语音合成方法，其特征在于，所述声学特征生成器包括解码器；所述基于所述声学特征生...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人