语音合成方法、语音合成装置、电子设备及存储介质制造方法及图纸

技术编号:36377605 阅读:13 留言:0更新日期:2023-01-18 09:38
本申请提供了一种语音合成方法、语音合成装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待处理的原始音素数据,将原始音素数据输入至预设的语音合成模型;语音合成模型包括声学网络和生成网络;通过声学网络对原始音素数据进行编码处理,得到音素特征向量;通过声学网络对音素特征向量进行韵律标签识别,得到原始音素数据的韵律标签特征;通过声学网络对音素特征向量进行声学特征提取,得到原始音素数据的向量量化特征;根据向量量化特征和韵律标签特征进行特征预测,得到原始音素数据的目标韵律特征;通过生成网络对目标韵律特征和向量量化特征进行语音合成,得到目标语音数据。本申请能够提高语音合成的准确性。确性。确性。

【技术实现步骤摘要】
语音合成方法、语音合成装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种语音合成方法、语音合成装置、电子设备及存储介质。

技术介绍

[0002]语音合成是指从文本中合成出可理解的、自然的语音,又称文本转语音(Text

To

Speech,TTS)。常见的语音合成方法大多是采用梅尔倒频谱作为语音合成的声学特征,而梅尔倒频谱在时域和频域的关系往往较为复杂,其复杂程度会极大地影响语音合成的准确性,因此,如何提高语音合成的准确性,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种语音合成方法、语音合成装置、电子设备及存储介质,旨在提高语音合成的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种语音合成方法,所述方法包括:
[0005]获取待处理的原始音素数据,所述原始音素数据为文本数据;
[0006]将所述原始音素数据输入至预设的语音合成模型;其中,所述语音合成模型包括声学网络和生成网络;
[0007]通过所述声学网络对所述原始音素数据进行编码处理,得到音素特征向量;
[0008]通过所述声学网络对所述音素特征向量进行韵律标签识别,得到所述原始音素数据的韵律标签特征;
[0009]通过所述声学网络对所述音素特征向量进行声学特征提取,得到所述原始音素数据的向量量化特征;
[0010]根据所述向量量化特征和所述韵律标签特征进行特征预测,得到所述原始音素数据的目标韵律特征;
[0011]通过所述生成网络对所述目标韵律特征和所述向量量化特征进行语音合成,得到目标语音数据。
[0012]在一些实施例,所述声学网络包括第一LSTM层和解码器,所述通过所述声学网络对所述音素特征向量进行韵律标签识别,得到所述原始音素数据的韵律标签特征,包括:
[0013]通过所述第一LSTM层对所述音素特征向量进行韵律特征提取,得到所述音素特征向量对应的初始韵律特征;
[0014]通过预设的聚类算法和参考聚类标签对所述初始韵律特征进行聚类处理,得到所述原始音素数据的目标聚类标签;
[0015]通过所述解码器对所述目标聚类标签进行解码处理,得到所述韵律标签特征。
[0016]在一些实施例,所述声学网络包括第一LSTM层、解码器、第二LSTM层,所述通过所述声学网络对所述音素特征向量进行声学特征提取,得到所述原始音素数据的向量量化特
征,包括:
[0017]通过所述第一LSTM层对所述音素特征向量进行韵律特征提取,得到所述音素特征向量对应的初始韵律特征;
[0018]通过所述解码器对所述初始韵律特征进行解码处理,得到初始梅尔倒谱特征;
[0019]通过所述第二LSTM层和预设的声学特征标签对所述初始梅尔倒谱特征进行预测处理,得到所述向量量化特征。
[0020]在一些实施例,所述根据所述向量量化特征和所述韵律标签特征进行特征预测,得到所述原始音素数据的目标韵律特征,包括:
[0021]对所述向量量化特征和所述韵律标签特征进行拼接处理,得到预测韵律特征;
[0022]对所述预测韵律特征进行层归一化处理,得到中间韵律特征;
[0023]根据预设的参考韵律参数对所述中间韵律特征进行筛选处理,得到三维韵律特征;
[0024]对所述三维韵律特征进行标准化处理,得到所述目标韵律特征。
[0025]在一些实施例,所述对所述三维韵律特征进行标准化处理,得到目标韵律特征,包括:
[0026]对所述三维韵律特征进行均值计算,得到韵律特征均值;
[0027]对所述三维韵律特征进行方差计算,得到韵律特征方差值;
[0028]根据所述韵律特征均值和所述韵律特征方差值对所述三维韵律特征进行标准化处理,得到所述目标韵律特征。
[0029]在一些实施例,所述通过所述生成网络对所述目标韵律特征和所述向量量化特征进行语音合成,得到目标语音数据,包括:
[0030]通过所述生成网络的卷积层对所述目标韵律特征进行卷积处理,得到候选韵律特征向量,并通过所述卷积层对所述向量量化特征进行卷积处理,得到候选量化特征向量;
[0031]对所述候选量化特征向量和所述候选韵律特征向量进行拼接处理,得到目标声学特征;
[0032]通过所述生成网络的特征编码器对所述目标声学特征进行平滑处理,得到声学特征向量;
[0033]通过所述生成网络的声码器对所述声学特征向量进行语音生成处理,得到所述目标语音数据。
[0034]在一些实施例,所述获取待处理的原始音素数据,包括:
[0035]获取原始文本;
[0036]根据预设的语言类型对所述原始文本进行过滤处理,得到初始文本;
[0037]根据预设的格式模板对所述初始文本进行格式变换,得到目标文本;
[0038]通过预设的文本转换模型和参考词典对所述目标文本进行数据转换,得到所述原始音素数据。
[0039]为实现上述目的,本申请实施例的第二方面提出了一种语音合成装置,所述装置包括:
[0040]数据获取模块,用于获取待处理的原始音素数据,所述原始音素数据为文本数据;
[0041]输入模块,用于将所述原始音素数据输入至预设的语音合成模型;其中,所述语音
合成模型包括声学网络和生成网络;
[0042]编码模块,用于通过所述声学网络对所述原始音素数据进行编码处理,得到音素特征向量;
[0043]标签识别模块,用于通过所述声学网络对所述音素特征向量进行韵律标签识别,得到所述原始音素数据的韵律标签特征;
[0044]声学特征提取模块,用于通过所述声学网络对所述音素特征向量进行声学特征提取,得到所述原始音素数据的向量量化特征;
[0045]特征预测模块,用于根据所述向量量化特征和所述韵律标签特征进行特征预测,得到所述原始音素数据的目标韵律特征;
[0046]语音合成模块,用于通过所述生成网络对所述目标韵律特征和所述向量量化特征进行语音合成,得到目标语音数据。
[0047]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0048]为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0049]本申请提出的语音合成方法、语音合成装置、电子设备、计算机可读存储介质,其通过获取待处理的原始音素数据;将原始音素数据输入至预设的语音合成模型,其中,语音合成模型包括声学网络和生成网络,能够实现通过模型对原始音素数据进行处理,在一定程度上能够提高语音合成的效率。进一步地,通过声学网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取待处理的原始音素数据,所述原始音素数据为文本数据;将所述原始音素数据输入至预设的语音合成模型;其中,所述语音合成模型包括声学网络和生成网络;通过所述声学网络对所述原始音素数据进行编码处理,得到音素特征向量;通过所述声学网络对所述音素特征向量进行韵律标签识别,得到所述原始音素数据的韵律标签特征;通过所述声学网络对所述音素特征向量进行声学特征提取,得到所述原始音素数据的向量量化特征;根据所述向量量化特征和所述韵律标签特征进行特征预测,得到所述原始音素数据的目标韵律特征;通过所述生成网络对所述目标韵律特征和所述向量量化特征进行语音合成,得到目标语音数据。2.根据权利要求1所述的语音合成方法,其特征在于,所述声学网络包括第一LSTM层和解码器,所述通过所述声学网络对所述音素特征向量进行韵律标签识别,得到所述原始音素数据的韵律标签特征,包括:通过所述第一LSTM层对所述音素特征向量进行韵律特征提取,得到所述音素特征向量对应的初始韵律特征;通过预设的聚类算法和参考聚类标签对所述初始韵律特征进行聚类处理,得到所述原始音素数据的目标聚类标签;通过所述解码器对所述目标聚类标签进行解码处理,得到所述韵律标签特征。3.根据权利要求1所述的语音合成方法,其特征在于,所述声学网络包括第一LSTM层、解码器、第二LSTM层,所述通过所述声学网络对所述音素特征向量进行声学特征提取,得到所述原始音素数据的向量量化特征,包括:通过所述第一LSTM层对所述音素特征向量进行韵律特征提取,得到所述音素特征向量对应的初始韵律特征;通过所述解码器对所述初始韵律特征进行解码处理,得到初始梅尔倒谱特征;通过所述第二LSTM层和预设的声学特征标签对所述初始梅尔倒谱特征进行预测处理,得到所述向量量化特征。4.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述向量量化特征和所述韵律标签特征进行特征预测,得到所述原始音素数据的目标韵律特征,包括:对所述向量量化特征和所述韵律标签特征进行拼接处理,得到预测韵律特征;对所述预测韵律特征进行层归一化处理,得到中间韵律特征;根据预设的参考韵律参数对所述中间韵律特征进行筛选处理,得到三维韵律特征;对所述三维韵律特征进行标准化处理,得到所述目标韵律特征。5.根据权利要求4所述的语音合成方法,其特征在于,所述对所述三维韵律特征进行标准化处理,得到所述目标韵律特征,包括:对所述三维韵律特征进行均值计算,得到韵律...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1