一种语音合成方法、设备及存储介质技术

技术编号:32135512 阅读:60 留言:0更新日期:2022-01-29 19:43
本申请公开了一种语音合成方法,该方法包括以下步骤:获取目标文本,并将所述目标文本输入声学模型生成的目标频谱;利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形;对所述语音波形进行爆音检测;如果检测到所述语音波形存在爆音,则重复执行所述利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形的步骤,直至所述语音波形中不存在爆音;输出不存在爆音的语音波形对应的语音。应用本申请所提供的技术方案,可以使得最后输出的语音中不存在爆音,使得最后得到的语音较为稳定可靠,提高了合成语音的质量。本申请还公开了一种语音合成装置、设备及存储介质,具有相应技术效果。具有相应技术效果。具有相应技术效果。

【技术实现步骤摘要】
一种语音合成方法、设备及存储介质


[0001]本申请涉及音频处理
,特别是涉及一种语音合成方法、设备及存储介质。

技术介绍

[0002]语音合成技术是一种将文本信息转换为语音信息的技术,涉及声学、语言学、计算机科学等多门学科,是中文信息处理领域的一项前沿技术。利用语音合成技术可以得到合成语音,可以在用户终端、机器人等应用场景下进行语音播放,合成语音的质量好坏直接影响用户的听觉体验。
[0003]那么,如何进行语音合成,使得最后得到的合成语音较为稳定可靠,提高合成语音的质量,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种语音合成方法、设备及存储介质,以使得得到的合成语音较为稳定可靠,提高合成语音的质量。
[0005]为解决上述技术问题,本申请提供如下技术方案:
[0006]一种语音合成方法,包括:
[0007]获取目标文本,并将所述目标文本输入声学模型生成的目标频谱;
[0008]利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形;
[0009]对所述语音波形进行爆音检测;
[0010]如果检测到所述语音波形存在爆音,则重复执行所述利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形的步骤,直至所述语音波形中不存在爆音;
[0011]输出不存在爆音的语音波形对应的语音。
[0012]在本申请的一种具体实施方式中,所述对所述语音波形进行爆音检测,包括:
[0013]根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测。
[0014]在本申请的一种具体实施方式中,所述根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测,包括:
[0015]根据所述语音波形在时域上的每个采样点的幅度绝对值、和/或每相邻两个采样点的幅度差值的绝对值、和/或每相隔一个或多个采样点的两个采样点的幅度差值的绝对值,确定在时域上所述语音波形的时域上是否存在爆音。
[0016]在本申请的一种具体实施方式中,在所述根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测之后,还包括:
[0017]如果所述语音波形在时域上不存在爆音,则根据所述语音波形在频域上各子带频率区间内的能量对所述语音波形进行频域上的爆音检测。
[0018]在本申请的一种具体实施方式中,所述根据所述语音波形在频域上各子带频率区间内的能量对所述语音波形进行频域上的爆音检测,包括:
[0019]判断所述语音波形在频域上每相邻两个子带频率区间内的能量的差值的绝对值是否大于预设的能量差阈值;
[0020]若是,则判定所述语音波形在频域上存在爆音;
[0021]若否,则判定所述语音波形在频域上不存在爆音。
[0022]在本申请的一种具体实施方式中,在所述输出不存在爆音的语音波形之前,还包括:
[0023]对所述不存在爆音的语音波形对应的语音进行静音检测;
[0024]如果检测到所述语音中存在静音时长大于预设时长阈值的目标静音,则对所述语音中的目标静音进行处理。
[0025]在本申请的一种具体实施方式中,对所述语音中的目标静音进行处理,包括:
[0026]对所述语音中的目标静音进行截断处理,
[0027]或,将所述语音中的目标静音替换为静音时长小于所述预设时长阈值的静音。
[0028]在本申请的一种具体实施方式中,在所述利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形之前,还包括:
[0029]对所述目标频谱进行幅值检测;
[0030]将检测到的超过预设的幅值范围的幅值调整至所述幅值范围内。
[0031]一种语音合成设备,包括:
[0032]存储器,用于存储计算机程序;
[0033]处理器,用于执行所述计算机程序时实现上述任一项所述的语音合成方法的步骤。
[0034]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的语音合成方法的步骤。
[0035]应用本申请实施例所提供的技术方案,在利用神经网络声码器对目标频谱进行推理,得到预测的语音波形后,并不直接输出该语音波形对应的语音,而是先对该语音波形进行爆音检测,在其不存在爆音的情况下,才进行输出对应的语音。在其存在爆音的情况下,利用神经网络声码器对目标频谱进行重新推理,得到预测的语音波形,对再次得到的该语音波形进行爆音检测,直至在利用神经网络声码器对目标频谱进行推理,得到的预测的语音波形中未检测到爆音时,才会输出不存在爆音的语音波形对应的语音,这样可以使得最后输出的语音中不存在爆音,使得最后得到的语音较为稳定可靠,提高了合成语音的质量。
附图说明
[0036]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本申请实施例中一种语音合成方法的实施流程图;
[0038]图2为本申请实施例中一种语音合成装置的结构示意图;
[0039]图3为本申请实施例中一种语音合成设备的结构示意图。
具体实施方式
[0040]本申请的核心是提供一种语音合成方法,该方法可以在计算机后台运行实现,还可以通过云端处理实现,以使得处理效率更高、运行速度更快。
[0041]在有将文本信息转换为语音信息的需求的任意场景下,都可以应用本申请实施例所提供的技术方案进行语音合成。比如,要将一个科普文章使用语音方式播放给用户的场景。
[0042]在本申请实施例中,获取目标文本,并将所述目标文本输入声学模型生成的目标频谱;利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形;对所述语音波形进行爆音检测;如果检测到所述语音波形存在爆音,则重复执行所述利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形的步骤,直至所述语音波形中不存在爆音;输出不存在爆音的语音波形对应的语音。在利用神经网络声码器对目标频谱进行推理,得到预测的语音波形后,并不直接输出该语音波形对应的语音,而是先对该语音波形进行爆音检测,在其不存在爆音的情况下,才进行输出对应的语音。在其存在爆音的情况下,利用神经网络声码器对目标频谱进行重新推理,得到预测的语音波形,对再次得到的该语音波形进行爆音检测,直至在利用神经网络声码器对目标频谱进行推理,得到的预测的语音波形中未检测到爆音时,才会输出不存在爆音的语音波形对应的语音,这样可以使得最后输出的语音中不存在爆音,使得最后得到的语音较为稳定可靠,提高了合成语音的质量。
[0043]为了使本
的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取目标文本,并将所述目标文本输入声学模型生成的目标频谱;利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形;对所述语音波形进行爆音检测;如果检测到所述语音波形存在爆音,则重复执行所述利用神经网络声码器对所述目标频谱进行推理,获得预测的语音波形的步骤,直至所述语音波形中不存在爆音;输出不存在爆音的语音波形对应的语音。2.根据权利要求1所述的语音合成方法,其特征在于,对所述语音波形进行爆音检测,包括:根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测。3.根据权利要求2所述的语音合成方法,其特征在于,所述根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测,包括:根据所述语音波形在时域上的每个采样点的幅度绝对值、和/或每相邻两个采样点的幅度差值的绝对值、和/或每相隔一个或多个采样点的两个采样点的幅度差值的绝对值,确定在时域上所述语音波形的时域上是否存在爆音。4.根据权利要求2所述的语音合成方法,其特征在于,在所述根据所述语音波形在时域上的幅度绝对值和幅度相对变化率对所述语音波形进行时域上的爆音检测之后,还包括:如果所述语音波形在时域上不存在爆音,则根据所述语音波形在频域上各子带频率区间内的能量对所述语音波形进行频域上的爆音检测。5.根据权利要求4所述的语音合成方法,其特征在于,所述根据所述语音波形在频域上各子带频...

【专利技术属性】
技术研发人员:徐东
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1