语音合成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36600920 阅读:13 留言:0更新日期:2023-02-04 18:15
本公开提供了一种语音合成方法、装置、电子设备和存储介质。本公开的一些实施例中,语音合成方法可以包括:获取第一文本和预定的音高控制数据;获取第一文本的第一声学特征;根据音高控制数据获得频谱长度与第一声学特征频的谱长度相同的韵律控制特征;将韵律控制特征与第一声学特征叠加以获得第二声学特征;利用第二声学特征合成第一文本的第二语音。本公开能够在实现灵活音高显示控制的同时,提高合成语音的音质。成语音的音质。成语音的音质。

【技术实现步骤摘要】
语音合成方法、装置、电子设备和存储介质


[0001]本公开涉及一种语音合成方法、装置、电子设备和存储介质。

技术介绍

[0002]随着语音合成技术的发展,在很多场景中需要根据用户需求或场景 需求等调整音频的音高。目前,语音合成中的音高控制主要通过单独的 参考编码器实现,该方式不仅需要单独训练复杂模型,精度较低,而且 适用范围有限。此外,该方式还难以实现字级别的音高控制。

技术实现思路

[0003]为了解决上述技术问题中的至少一个,本公开提供了一种语音合成 方法、装置、电子设备和存储介质。
[0004]本公开的第一方面提供了一种语音合成方法,包括:
[0005]获取第一文本和预定的音高控制数据;
[0006]获取所述第一文本的第一声学特征;
[0007]根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱 长度相同的韵律控制特征;
[0008]将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特 征;
[0009]利用所述第二声学特征合成所述第一文本的第二语音。
[0010]本公开的一些实施方式中,所述音高控制数据包含预定音频位置 及其对应的基频控制值;所述第二声学特征中对应所述预定音频位置 的基频值由所述第一声学特征中对应所述预定音频位置的基频值与所 述基频控制值决定。
[0011]本公开的一些实施方式中,所述根据所述音高控制数据获得频谱 长度与所述第一声学特征频的谱长度相同的韵律控制特征之前,还包 括:根据预先获取的选定发音人的基频调节参数调整所述音高控制数 据中的基频控制值。
[0012]本公开的一些实施方式中,所述根据所述音高控制数据获得频谱 长度与所述第一声学特征频的谱长度相同的韵律控制特征,包括:对 所述音高控制数据执行插值运算,所述插值运算的结果为所述韵律控 制特征。
[0013]本公开的一些实施方式中,所述根据所述音高控制数据获得频谱 长度与所述第一声学特征频的谱长度相同的韵律控制特征之前,还包 括:利用所述第一声学特征合成所述第一文本的第一语音;
[0014]所述根据所述音高控制数据获得频谱长度与所述第一声学特征频 的谱长度相同的韵律控制特征,包括:将所述第一文本和所述第一语 音在时间维度上对齐,以获得字级别的音素持续时间信息;对所述音 素持续时间信息与所述音高控制数据执行插值运算,所述插值运算的 结果为所述韵律控制特征。
[0015]本公开的一些实施方式中,将所述韵律控制特征与所述第一声学 特征叠加以获
得第二声学特征之前,还包括:对所述第一声学特征执 行解压缩处理;将所述韵律控制特征与所述第一声学特征叠加以获得 第二声学特征之后,还包括:对所述第二声学特征执行压缩处理,以 使得所述第二声学特征中元素值的取值在预定区间内。
[0016]本公开的一些实施方式中,所述语音合成方法通过语音合成模型 实现,所述语音合成模型通过如下方式训练得到:
[0017]获取用于训练所述语音合成模型的语料,所述语料包括多个语音 文本对,每条所述语音文本对包括第二文本及其对应的真实语音;
[0018]从所述语料中筛选出真实语音的基频特征满足预定条件的语音文 本对;
[0019]对筛选出的每条语音文本对中真实语音的基频特征执行压缩处理, 以获得所述语音文本对的原始基频特征;
[0020]利用筛选出的语音文本对及其原始基频特征训练得到所述语音合 成模型;
[0021]其中,通过比较所述第二声学特征和所述原始基频特征来更新所 述语音合成模型的参数,包括:
[0022]通过运行所述语音合成模型获取所述语音文本对中第二文本 对应的第二声学特征,并对第二文本对应的第二声学特征执行压缩 处理,以使得所述第二声学特征中元素值的取值在预定区间内;
[0023]通过比较所述第二声学特征和所述语音文本对的原始基频特 征来更新所述语音合成模型的参数。
[0024]本公开的第一方面提供了一种语音合成装置,包括:
[0025]获取单元,用于获取第一文本和预定的音高控制数据;
[0026]声学特征提取单元,用于获取所述第一文本的第一声学特征;
[0027]韵律控制特征提取单元,用于根据所述音高控制数据获得频谱长 度与所述第一声学特征频的谱长度相同的韵律控制特征;
[0028]特征叠加单元,用于将所述韵律控制特征与所述第一声学特征叠 加以获得第二声学特征;
[0029]语音生成单元,用于利用所述第二声学特征合成所述第一文本的 第二语音。
[0030]本公开的第三方面提供了一种电子设备,包括:
[0031]存储器,所述存储器存储执行指令;以及
[0032]处理器,所述处理器执行所述存储器存储的执行指令,使得所述 处理器执行上述的语音合成方法。
[0033]本公开的第四方面提供了一种可读存储介质,所述可读存储介质 中存储有执行指令,所述执行指令被处理器执行时用于实现上述的语 音合成方法。
[0034]本公开实施例通过设置音高控制数据即可实现合成语音的韵律控 制,无需参考额外音频的节奏特征,也无需单独训练专用于音高控制 的复杂模型,即有效解决了传统语音合成音高无法灵活显示控制的问 题。此外,本公开实施例通过将来自音高控制数据的韵律控制特征叠 加到声学特征从而实现语音合成,能够在实现灵活地音高显示控制的 同时,提高合成语音的音质,合成更自然、更健壮的声音。
附图说明
[0035]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本 公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且 附图包括在本说明书中并构成本说明书的一部分。
[0036]图1是根据本公开的一些实施方式的语音合成方法的流程示意图。
[0037]图2是根据本公开的一些实施方式的语音合成模型训练流程示意图。
[0038]图3是根据本公开的一些实施方式的语音合成模型的结构示意图。
[0039]图4是本公开的一个实施方式的采用处理系统的硬件实现方式的 语音合成装置的结构示意框图。
[0040]图5是本公开的一个实施方式的采用处理系统的硬件实现方式的 模型训练装置的结构示意框图。
[0041]附图标记说明
[0042]200 语音合成装置
[0043]300 模型训练装置
[0044]400 总线
[0045]500 处理器
[0046]600 存储器
[0047]700 各种其他电路
具体实施方式
[0048]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解 的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开 的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公 开相关的部分。
[0049]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方 式中的特征可以相互组合。下面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取第一文本和预定的音高控制数据;获取所述第一文本的第一声学特征;根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征;将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征;利用所述第二声学特征合成所述第一文本的第二语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述音高控制数据包含预定音频位置及其对应的基频控制值;所述第二声学特征中对应所述预定音频位置的基频值由所述第一声学特征中对应所述预定音频位置的基频值与所述基频控制值决定。3.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前,还包括:根据预先获取的选定发音人的基频调节参数调整所述音高控制数据中的基频控制值。4.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征,包括:对所述音高控制数据执行插值运算,所述插值运算的结果为所述韵律控制特征。5.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征之前,还包括:利用所述第一声学特征合成所述第一文本的第一语音;所述根据所述音高控制数据获得频谱长度与所述第一声学特征频的谱长度相同的韵律控制特征,包括:将所述第一文本和所述第一语音在时间维度上对齐,以获得字级别的音素持续时间信息;对所述音素持续时间信息与所述音高控制数据执行插值运算,所述插值运算的结果为所述韵律控制特征。6.根据权利要求1所述的语音合成方法,其特征在于,将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征之前,还包括:对所述第一声学特征执行解压缩处理;将所述韵律控制特征与所述第一声学特征叠加以获得第二声学特征之后,还包括...

【专利技术属性】
技术研发人员:杨喜鹏高文玉陈云琳叶顺平
申请(专利权)人:问问智能信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1