语音合成方法技术

技术编号:39575634 阅读:6 留言:0更新日期:2023-12-03 19:27
本申请实施例公开一种语音合成方法

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,具体涉及一种语音合成方法

装置

电子设备及存储介质


技术介绍

[0002]目前,语音语调的调整一般是将
TTS(Text To Speech
,从文本到语音
)
模型生成的合成语音的音素时长和基频,与目标语音的音素时长和基频进行比较,再通过调整每个音素的时长和基频来实现语音语调的调整,这种方法虽然可以精确地调整合成语音的每个音素的语调,但需要大量的人工干预,效率较低

另外,还可以通过将
TTS
模型生成语音的语音信号与目标语音的语音信号进行比较,然后通过对生成语音的基频

音量

音色等参数进行全局调整来实现语音语调的调整

这种方法的虽然可以快速地调整整个语音信号的语调,但是调整效果相对较粗糙,可能会影响语音的自然度和流畅度


技术实现思路

[0003]本申请实施例公开了一种语音合成方法

装置

电子设备及存储介质,能够提高对合成语音的调整效率,同时也提高了合成语音的自然度和流畅度

[0004]本申请实施例公开一种语音合成方法,所述方法包括:
[0005]获取原始文本;
[0006]通过训练得到的语音模型提取所述原始文本的语音特征,并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化,得到目标频谱向量;其中,所述语音模型包括前端模块

语音合成
TTS
模型及后端模块,所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征,所述
TTS
模型用于生成所述原始文本对应的初始频谱向量,所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合,得到目标频谱向量;
[0007]根据所述目标频谱向量生成目标语音

[0008]作为一种可选的实施方式,在所述通过训练得到的语音模型提取所述原始文本的语音特征之前,所述方法还包括:
[0009]对所述原始文本进行拼音转化操作,以确定所述原始文本对应的音素序列;
[0010]所述通过训练得到的语音模型提取所述原始文本的语音特征,并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化,得到目标频谱向量,包括:
[0011]将所述音素序列输入训练得到的语音模型,通过所述语音模型根据所述音素序列提取所述原始文本的语音特征,并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化,得到目标频谱向量

[0012]作为一种可选的实施方式,所述原始文本对应的至少一种语音特征,包括:时长特征

韵律特征以及高音特征中的一种或多种,所述时长特征用于指示所述原始文本的每个音素进行发音时所需的时间长度,所述韵律特征用于指示所述原始文本的相邻两个音素进
行发音时的时间间隔,所述高音特征用于指示所述原始文本的每个音素进行发音时声波的频率

[0013]作为一种可选的实施方式,所述前端模块包括时长特征生成单元

韵律特征生成单元以及高音特征生成单元,所述时长特征生成单元用于提取时长特征,所述韵律特征生成单元用于提取韵律特征,所述高音特征生成单元用于提取高音特征;所述基于多头注意力机制提取所述原始文本对应的语音特征,包括:
[0014]根据所述音素序列生成音素向量;
[0015]基于多头注意力机制,通过目标特征生成单元对所述音素向量进行多头注意力计算,得到多个注意力向量,对所述多个注意力向量进行拼接,得到多头注意力向量,并根据所述多头注意力向量,生成所述目标特征生成单元对应的目标语音特征;所述目标特征生成单元为所述时长特征生成单元

韵律特征生成单元以及高音特征生成单元中的任意一个

[0016]作为一种可选的实施方式,所述目标特征生成模块包括多层神经网络;所述基于多头注意力机制,通过目标特征生成单元对所述音素向量进行多头注意力计算,得到多个注意力向量,对所述多个注意力向量进行拼接,得到多头注意力向量,并根据所述多头注意力向量,生成所述目标特征生成单元对应的目标语音特征,包括:
[0017]将所述音素向量作为输入到第一层神经网络的目标特征向量,通过当前层的神经网络对输入的目标特征向量进行多头注意力计算,得到多个注意力向量,并对所述多个注意力向量进行拼接,得到所述当前层的神经网络对应的多头注意力向量;
[0018]对所述多头注意力向量进行残差连接处理及第一归一化处理,得到第一特征向量;
[0019]对所述第一特征向量进行残差连接处理及前向传播,得到第二特征向量;
[0020]对所述第二特征向量进行第二归一化处理,得到目标特征向量;
[0021]将所述目标特征向量输入至下一层的神经网络,并将所述下一层的神经网络作为新的当前层的神经网络,重新执行所述通过当前层的神经网络对输入的目标特征向量进行多头注意力计算,得到多个注意力向量的步骤,直至所述当前层的神经网络为最后一层神经网络;
[0022]将最后一层神经网络输出的目标特征向量确定为所述目标特征生成单元对应的目标语音特征

[0023]作为一种可选的实施方式,所述将所述至少一种语音特征及所述初始频谱向量进行融合,得到目标频谱向量,包括:
[0024]根据所述至少一种语音特征及所述初始频谱向量分别对应的权重值,对所述至少一种语音特征及所述初始频谱向量进行加权融合,得到目标频谱向量

[0025]作为一种可选的实施方式,在所述获取原始文本之前,所述方法还包括:
[0026]获取样本音素序列集合,所述样本音素序列集合包括多个样本音素序列;
[0027]对每个所述样本音素序列进行音素切分,得到音素时长序列

音素间隔序列以及频谱序列;
[0028]将所述样本音素序列及对应的音素时长序列

音素间隔序列以及频谱序列输入待训练的语音模型,通过所述待训练的语音模型的前端模块根据输入的样本音素序列确定预
测时长特征

预测韵律特征以及预测高音特征,根据所述预测时长特征及输入的音素时长序列之间的第一误差

所述预测韵律特征及输入的音素间隔序列之间的第二误差

所述预测高音特征与输入的频谱序列之间的第三误差调整所述待训练的语音模型的模型参数,以得到训练后的语音模型

[0029]本申请实施例公开一种语音合成装置,所述装置包括:
[0030]获取模块,用于获取原始文本;
[0031]优化模块,用于通过训练得到的语音模型提取所述原始文本的语音特征,并根据所述语音特征对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音合成方法,其特征在于,所述方法包括:获取原始文本;通过训练得到的语音模型提取所述原始文本的语音特征,并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化,得到目标频谱向量;其中,所述语音模型包括前端模块

语音合成
TTS
模型及后端模块,所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征,所述
TTS
模型用于生成所述原始文本对应的初始频谱向量,所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合,得到目标频谱向量;根据所述目标频谱向量生成目标语音
。2.
根据权利要求1所述的方法,其特征在于,在所述通过训练得到的语音模型提取所述原始文本的语音特征之前,所述方法还包括:对所述原始文本进行拼音转化操作,以确定所述原始文本对应的音素序列;所述通过训练得到的语音模型提取所述原始文本的语音特征,并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化,得到目标频谱向量,包括:将所述音素序列输入训练得到的语音模型,通过所述语音模型根据所述音素序列提取所述原始文本的语音特征,并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化,得到目标频谱向量
。3.
根据权利要求2所述的方法,其特征在于,所述原始文本对应的至少一种语音特征,包括:时长特征

韵律特征以及高音特征中的一种或多种,所述时长特征用于指示所述原始文本的每个音素进行发音时所需的时间长度,所述韵律特征用于指示所述原始文本的相邻两个音素进行发音时的时间间隔,所述高音特征用于指示所述原始文本的每个音素进行发音时声波的频率
。4.
根据权利要求3所述的方法,其特征在于,所述前端模块包括时长特征生成单元

韵律特征生成单元以及高音特征生成单元,所述时长特征生成单元用于提取时长特征,所述韵律特征生成单元用于提取韵律特征,所述高音特征生成单元用于提取高音特征;所述基于多头注意力机制提取所述原始文本对应的语音特征,包括:根据所述音素序列生成音素向量;基于多头注意力机制,通过目标特征生成单元对所述音素向量进行多头注意力计算,得到多个注意力向量,对所述多个注意力向量进行拼接,得到多头注意力向量,并根据所述多头注意力向量,生成所述目标特征生成单元对应的目标语音特征;所述目标特征生成单元为所述时长特征生成单元

韵律特征生成单元以及高音特征生成单元中的任意一个
。5.
根据权利要求4所述的方法,其特征在于,所述目标特征生成模块包括多层神经网络;所述基于多头注意力机制,通过目标特征生成单元对所述音素向量进行多头注意力计算,得到多个注意力向量,对所述多个注意力向量进行拼接,得到多头注意力向量,并根据所述多头注意力向量,生成所述目标特征生成单元对应的目标语音特征,包括:将所述音素向量作为输入到第一层神经网络的目标特征向量,通过当前层的神经网络对输入的目标特征向量进行多头注意力计算,得到多个注意力向量,并对所述多...

【专利技术属性】
技术研发人员:吕召彪赵文博许程冲肖清
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1