一种语音合成方法、设备及存储介质技术

技术编号：32135512 阅读：60 留言：0更新日期：2022-01-29 19:43

本申请公开了一种语音合成方法，该方法包括以下步骤：获取目标文本，并将所述目标文本输入声学模型生成的目标频谱；利用神经网络声码器对所述目标频谱进行推理，获得预测的语音波形；对所述语音波形进行爆音检测；如果检测到所述语音波形存在爆音，则重复执行所述利用神经网络声码器对所述目标频谱进行推理，获得预测的语音波形的步骤，直至所述语音波形中不存在爆音；输出不存在爆音的语音波形对应的语音。应用本申请所提供的技术方案，可以使得最后输出的语音中不存在爆音，使得最后得到的语音较为稳定可靠，提高了合成语音的质量。本申请还公开了一种语音合成装置、设备及存储介质，具有相应技术效果。具有相应技术效果。具有相应技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、设备及存储介质

[0001]本申请涉及音频处理
，特别是涉及一种语音合成方法、设备及存储介质。

技术介绍

[0002]语音合成技术是一种将文本信息转换为语音信息的技术，涉及声学、语言学、计算机科学等多门学科，是中文信息处理领域的一项前沿技术。利用语音合成技术可以得到合成语音，可以在用户终端、机器人等应用场景下进行语音播放，合成语音的质量好坏直接影响用户的听觉体验。
[0003]那么，如何进行语音合成，使得最后得到的合成语音较为稳定可靠，提高合成语音的质量，是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种语音合成方法、设备及存储介质，以使得得到的合成语音较为稳定可靠，提高合成语音的质量。
[0005]为解决上述技术问题，本申请提供如下技术方案：
[0006]一种语音合成方法，包括：
[0007]获取目标文本，并将所述目标文本输入声学模型生成的目标频谱；
[0008]利用神经网络声码器对所述目标频谱进行推理，获得预测的语音波形；
[0009]对所述语音波形进行爆音检测；
[0010]如果检测到所述语音波形存在爆音，则重复执行所述利用神经网络声码器对所述目标频谱进行推理，获得预测的语音波形的步骤，直至所述语音波形中不存在爆音；
[0011]输出不存在爆音的语音波形对应的语音。
[0012]在本申请的一种具体实施方式中，所述对所述语音波形进行爆音检测，包括：
[00...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取目标文本，并将所述目标文本输入声学模型生成的目标频谱；利用神经网络声码器对所述目标频谱进行推理，获得预测的语音波形；对所述语音波形进行爆音检测；如果检测到所述语音波形存在爆音，则重复执行所述利用神经网络声码器对所述目标频谱进行推理，获得预测的语音波形的步骤，直至所述语音波形中不存在爆音；输出不存在爆音的语音波形对应的语音。2.根据权利要求1所述的语音合成方法，其特征在于，对所述语音波形进行爆音检测，包括：根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测。3.根据权利要求2所述的语音合成方法，其特征在于，所述根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测，包括：根据所述语音波形在时域上的每个采样点的幅度绝对值、和/或每相邻两个采样点的幅度差值的绝对值、和/或每相隔一个或多个采样点的两个采样点的幅度差值的绝对值，确定在时域上所述语音波形的时域上是否存在爆音。4.根据权利要求2所述的语音合成方法，其特征在于，在所述根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测之后，还包括：如果所述语音波形在时域上不存在爆音，则根据所述语音波形在频域上各子带频率区间内的能量对所述语音波形进行频域上的爆音检测。5.根据权利要求4所述的语音合成方法，其特征在于，所述根据所述语音波形在频域上各子带频...

【专利技术属性】
技术研发人员：徐东，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人