语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号:35459955 阅读:25 留言:0更新日期:2022-11-03 12:25
本发明专利技术涉及自然语言处理技术领域,公开了一种语音合成方法、装置、设备及存储介质。该方法包括:获取音频样本,基于预训练的预测模型对音频样本进行情感特征预测,获得音频样本的情感特征标签;对情感特征标签进行聚类处理,获得多个情感数据集合,各情感数据集合包含有聚类中心;获取用户输入的目标情感,根据目标情感确定聚类中心,根据聚类中心和预设计算策略计算与目标情感对应的情感特征;获取用户输入的目标文本,将目标文本转化为目标音素序列;将目标音素序列和情感特征输入训练好的语音合成模型中,合成目标语音。通过上述方式,本发明专利技术能够合成情绪强度及情感复杂度可控语音,提高了语音合成的真实性和自然度。提高了语音合成的真实性和自然度。提高了语音合成的真实性和自然度。

【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,特别是涉及一种语音合成方法、装置、设备及存储介质。

技术介绍

[0002]语音合成(Speech Synthesis),又称文语转换技术是指计算机通过分析将任意文本转化为流畅语音的技术。语音合成作为实现人机语音交互系统的核心技术之一;是语音处理技术中一个重要的方向,其应用价值越来越受到重视。
[0003]传统的语音合成系统,需要用户在给定合成文本,同时指定一个情感标签值,如高兴、悲伤、愤怒等,语音合成系统会返回该情绪的语音。但是,这样的语音合成系统无法完全满足情绪化播报的要求,主要有以下缺点:
[0004]1.人的情感是具有起承转合的,情绪会完成平静、积累、爆发等几个阶段。但传统语音合成系统只能够以相同的情绪强度完成所有内容的播报,无法实现强度调节的功能,难以自然流畅地实现情绪在不同句子之间的过渡。
[0005]2.情绪的表达是复杂的,人们有时会同时表现多种情感,例如有点开心又有点担忧、有点悲伤又有点愤怒。传统的语音合成系统无法实现多情绪夹杂的语音合成。

技术实现思路

[0006]本专利技术提供一种语音合成方法、装置、设备及存储介质,能够合成情绪强度及情感复杂度可控语音,提高了语音合成的真实性和自然度。
[0007]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种语音合成方法,包括:
[0008]获取音频样本,基于预训练的预测模型对所述音频样本进行情感特征预测,获得所述音频样本的情感特征标签;
[0009]对所述情感特征标签进行聚类处理,获得多个情感数据集合,各所述情感数据集合包含有聚类中心;
[0010]获取用户输入的目标情感,根据所述目标情感确定聚类中心,根据所述聚类中心和预设计算策略计算与所述目标情感对应的情感特征;
[0011]获取用户输入的目标文本,将所述目标文本转化为目标音素序列;
[0012]将所述目标音素序列和所述情感特征输入训练好的语音合成模型中,合成目标语音。
[0013]根据本专利技术的一个实施例,所述获取音频样本基于预训练的预测模型对所述音频样本进行情感特征预测,获得所述音频样本的情感特征标签之后,还包括:
[0014]将所述音频样本转化为标准Mel频谱;
[0015]获取文本样本,将所述文本样本转化为音素序列,将所述音素序列、所述音频样本的情感特征标签以及对应的标准Mel频谱作为训练数据;
[0016]构建语音合成模型,所述语音合成模型包括音素嵌入层、音素编码器、声学编码器、变化适配器,情感特征输入层,拼接层、Mel解码器、以及声码器,所述音素嵌入层用于根据所述音素序列获得音素向量,所述音素编码器用于根据所述音素向量获得所述文本样本的韵律隐特征,所述声学编码器用于根据所述音素序列与Mel频谱对齐后的谱图、所述韵律隐特征获得声学特征,所述变化适配器用于对所述声学特征进行特征增强与扩充,所述情感特征输入层用于根据所述情感特征标签获得情感特征向量,所述拼接层用于将所述情感特征向量与所述变化适配器的输出进行特征融合,所述Mel解码器用于根据拼接层的输出实现并行解码,得到合成语音的Mel频谱,所述声码器用于将所述Mel频谱映射成声音波形,得到合成语音;
[0017]将所述训练数据输入到所述语音合成模型中,根据所述Mel解码器合成的Mel频谱和所述标准Mel频谱之间的误差计算损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的语音合成模型。
[0018]根据本专利技术的一个实施例,所述预设计算策略包括第一计算策略和第二计算策略,所述获取用户输入的目标情感,根据所述目标情感确定聚类中心,根据所述聚类中心和预设计算策略计算与所述目标情感对应的情感特征包括:
[0019]获取用户输入的目标情感,识别所述目标情感的种类;
[0020]当所述目标情感的种类为一种时,根据所述目标情感确定聚类中心,根据所述聚类中心和所述第一计算策略计算与所述目标情感对应的情感特征;
[0021]当所述目标情感的种类为多种时,根据所述目标情感确定聚类中心,根据所述聚类中心和所述第二计算策略计算与所述目标情感对应的情感特征。
[0022]根据本专利技术的一个实施例,所述第一计算策略按照如下公式进行计算:
[0023]Q1=(emotive_vector

neutral_vector)
×
scale+neutral_vector,其中,Q1为所述情感特征,emotive_vector为与所述目标情感对应的聚类中心,neutral_vector为中性情感对应的聚类中心,scale为预设值。
[0024]根据本专利技术的一个实施例,所述第二计算策略按照如下公式进行计算:
[0025]Q2=(emotive_vector1

neutral_vector)
×
scale1+

+(emotive_vectorN

neutral_vector)
×
scaleN+neutral_vector,其中,,Q2为所述情感特征,emotive_vector1

emotive_vectorN为所述目标情感中各种情感对应的聚类中心,neutral_vector为中性情感对应的聚类中心,scale1

scaleN为预设值。
[0026]根据本专利技术的一个实施例,所述对所述情感特征标签进行聚类处理,获得多个情感数据集合包括:
[0027]基于所述音频样本的预设情感标签生成多类情感数据,选取K类情感数据各自的类均值作为初始聚类中心;
[0028]计算每个所述情感特征标签与各所述初始聚类中心的距离,根据距离计算结果对所述情感特征标签进行分类,得到K个情感数据集合;
[0029]计算各所述情感数据集合中所有所述情感特征标签的平均值,将所述平均值作为新的聚类中心。
[0030]根据本专利技术的一个实施例,所述将所述目标音素序列和所述情感特征输入训练好的语音合成模型中,合成目标语音包括:
[0031]将所述目标音素序列输入训练好的语音合成模型中,将所述目标音素序列转化为目标音素向量;
[0032]根据所述目标音素向量获得所述目标文本的韵律隐特征;
[0033]根据所述目标音素序列与Mel频谱对齐后的谱图、所述韵律隐特征获得声学特征;
[0034]对所述声学特征进行特征增强与扩充处理,获得增强特征向量;
[0035]将所述情感特征输入训练好的语音合成模型中,将所述情感特征向量与所述增强特征向量进行特征融合,得到融合特征;
[0036]对所述融合特征进行并行解码,得到合成语音的目标Mel频谱,根据所述目标Mel频谱合成所述目标语音。
[0037]为解决上述技术问题,本专利技术采用的另一个技术方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取音频样本,基于预训练的预测模型对所述音频样本进行情感特征预测,获得所述音频样本的情感特征标签;对所述情感特征标签进行聚类处理,获得多个情感数据集合,各所述情感数据集合包含有聚类中心;获取用户输入的目标情感,根据所述目标情感确定聚类中心,根据所述聚类中心和预设计算策略计算与所述目标情感对应的情感特征;获取用户输入的目标文本,将所述目标文本转化为目标音素序列;将所述目标音素序列和所述情感特征输入训练好的语音合成模型中,合成目标语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述获取音频样本基于预训练的预测模型对所述音频样本进行情感特征预测,获得所述音频样本的情感特征标签之后,还包括:将所述音频样本转化为标准Mel频谱;获取文本样本,将所述文本样本转化为音素序列,将所述音素序列、所述音频样本的情感特征标签以及对应的标准Mel频谱作为训练数据;构建语音合成模型,所述语音合成模型包括音素嵌入层、音素编码器、声学编码器、变化适配器,情感特征输入层,拼接层、Mel解码器、以及声码器,所述音素嵌入层用于根据所述音素序列获得音素向量,所述音素编码器用于根据所述音素向量获得所述文本样本的韵律隐特征,所述声学编码器用于根据所述音素序列与Mel频谱对齐后的谱图、所述韵律隐特征获得声学特征,所述变化适配器用于对所述声学特征进行特征增强与扩充,所述情感特征输入层用于根据所述情感特征标签获得情感特征向量,所述拼接层用于将所述情感特征向量与所述变化适配器的输出进行特征融合,所述Mel解码器用于根据拼接层的输出实现并行解码,得到合成语音的Mel频谱,所述声码器用于将所述Mel频谱映射成声音波形,得到合成语音;将所述训练数据输入到所述语音合成模型中,根据所述Mel解码器合成的Mel频谱和所述标准Mel频谱之间的误差计算损失函数,训练过程中更新模型的参数直到模型收敛,得到训练好的语音合成模型。3.根据权利要求1所述的语音合成方法,其特征在于,所述预设计算策略包括第一计算策略和第二计算策略,所述获取用户输入的目标情感,根据所述目标情感确定聚类中心,根据所述聚类中心和预设计算策略计算与所述目标情感对应的情感特征包括:获取用户输入的目标情感,识别所述目标情感的种类;当所述目标情感的种类为一种时,根据所述目标情感确定聚类中心,根据所述聚类中心和所述第一计算策略计算与所述目标情感对应的情感特征;当所述目标情感的种类为多种时,根据所述目标情感确定聚类中心,根据所述聚类中心和所述第二计算策略计算与所述目标情感对应的情感特征。4.根据权利要求3所述的语音合成方法,其特征在于,所述第一计算策略按照如下公式进行计算:Q1=(emotive_vector

neutral_vector)
×
scale+neutral_vector,其中,Q1为所述情感特征,emotive_vectorN为与所述目标情感对应的聚类中心,neutral_vectorN为中性情
感对应的聚类中心,scale为预设值。5.根据权利要求3所述的语音合...

【专利技术属性】
技术研发人员:陈婷郭璇马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1