一种可合成多情感音频的语音合成模型方法技术

技术编号:38938717 阅读:10 留言:0更新日期:2023-09-25 09:39
本发明专利技术公开了一种可合成多情感音频的语音合成模型方法,涉及智能语音技术领域,包括以下步骤:处理原始数据,区分训练集和验证集,分别添加标注文件,同时将原始数据集交付情感识别模块处理;调用情感识别模块对数据集进行预处理,将音频拆解成音素和情感特征文件;完整的多情感文本转语音模型和数据集处理具体分为数据集收集、无监督预处理、编码器训练和在线推理,最后获得的产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件,能够实现多情感输出,同时可模拟韵律,使效果接近真人,在处理数据时无需进行情感标注,同时以构建连续特征值谱的方式极大避免了机器标注不准的问题。注不准的问题。注不准的问题。

【技术实现步骤摘要】
一种可合成多情感音频的语音合成模型方法


[0001]本专利技术涉及智能语音
,尤其涉及一种可合成多情感音频的语音合成模型方法。

技术介绍

[0002]智能语音技术经过近几年的发展已进入高峰期,推动智能语音的市场规模扩大及商业化应用的落地。随着新兴自然语言技术产生以及已有技术的不断成熟,智能语音技术已经从萌芽期迈入了成熟期,推动大规模的商业化应用落地。
[0003]受益于深度学习的蓬勃发展,机器合成的声音不再顿挫、冰冷,在自然度和可懂度等方面取得了不错的成绩,但当前语音合成技术仍然无法对人类声道进行完全模拟,因此合成的质量欠佳。此外,有情感语音合成也是一个难点。目前虽推出了能够合成自然声音的tacotron2,但它并不能用来分析语义,合成有情感的语音,并且其自然度也有能够提升的空间。
[0004]为此,需要设计一种可合成多情感音频的语音合成模型方法来解决上述问题。

技术实现思路

[0005]本专利技术提供一种可合成多情感音频的语音合成模型方法,解决了上述提出的技术问题。
[0006]为解决上述技术问题,本专利技术提供的一种可合成多情感音频的语音合成模型方法,包括以下步骤:S1、处理原始数据,区分训练集和验证集,分别添加标注文件,同时将原始数据集交付情感识别模块处理;S2、调用情感识别模块对数据集进行预处理,将音频拆解成音素和情感特征文件;S3、调用编码器对拆解好的音频进行训练,音频会基于特征文件被编码器自动分类,获取训练好的声学模型;S4、获得模型文件,插入声码器,再输入端输入文本,利用声学模型提供的函数处理文本转换成的音素,随机时长预测器添加音长信息,获得连续的结果音频;S5、根据S4步骤所得产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件;其中,所述S1中要求吐字清晰、语速适中、音量大小均衡、长度为5

10s的音频,且情绪要求至少5000条训练集,500条验证集;其中,所述S2中训练时间用epoch表示,一般在10000个epoch左右收敛,收敛与否主要由偏移量标注。
[0007]进一步,所述S2中情感识别模块表达训练步骤如下:S201、首先构建以音素为单位的超小样本;S202、然后通过卷积神经网络来提取每个片段的情感特征;
S203、最后转换成numpy数组存储在样本集中。
[0008]进一步,所述numpy数组被依照聚类算法进行了自然组划分。
[0009]进一步,所述S3中编码器模块对拆解好的音频训练步骤如下:S301、采用变分推理用于从潜在空间中采样隐变量;S302、再通过标准化流将潜在空间中的隐变量映射到语音空间中。
[0010]进一步,所述S301中将S203中numpy数组存储的情感特征作为新维度加入标准化流提取出的隐变量,以映射到语音空间中。
[0011]进一步,所述S302中映射过程包括构建mel频谱来将一般的音频转换为了可供机器学习的数据,额外加入一个随机时长预测器来估计音素的时长的分布,情感表示被作为新的计算维度加入预测。
[0012]进一步,所述S4中声码器采用WaveGlow结构,包括WaveNet解码器和一个Glow流编码器组成。
[0013]进一步,所述声码器处理步骤如下:S401、将文本拆解成音素后,Wavenet会将音素序列重建为连续的波形;S402、Glow流编码器将会将连续波形映射成离散的语音表示,构建Wav文件;其中,S3中编码器训练的结果将以隐变量的形式参与音素序列的重建过程。
[0014]进一步,所述S4在线合成流程如下:S411、将文字以段落为单位从本地发送到服务端;S412、取该句音素情感表示的众数区间的平均值作为整句的情感表达;S413、生成特征值

语音表示的键值对,交付声学模型进行合成,时间复杂度仍为O(n);其中,所述S4中能够人为修改特征值。
[0015]与相关技术相比较,本专利技术提供的一种可合成多情感音频的语音合成模型方法具有如下有益效果:本专利技术提供,处理原始数据,区分训练集和验证集,分别添加标注文件,同时将原始数据集交付情感识别模块处理,接下来将提取出情感特征编码器依据标注文件将音频和音素序列对齐,结合情感特征训练声学模型,获取训练好的声学模型,插入声学模型,在输入端输入文本,声码器利用声学模型提供的函数处理文本转换成的音素,随机时长预测器添加音长信息,获得连续的结果音频,最后获得产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件,解决多情感文本转语音的问题,同时对数据集标注和在线合成做出了一定程度的优化。
[0016]本专利技术提供,完整的多情感文本转语音模型和数据集处理具体分为数据集收集、无监督预处理、编码器训练和在线推理,最后获得的产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件,能够实现多情感输出,同时可模拟韵律,使效果接近真人,在处理数据时无需进行情感标注,同时以构建连续特征值谱的方式极大避免了机器标注不准的问题。
[0017]本专利技术提供,针对长文本在线合成构建了独特的情感分析输入输出架构,保障了时间复杂度量级维持在O(n),使得在添加了双维度的前提下合成速度不至于暴跌,且添加了离线微调能力,增强了输出结果的可编辑性,同时连续情绪特征值谱的设计让微调情绪
成为可能,有效解决多情感文本转语音的问题,同时对数据集标注和在线合成做出了一定程度的优化。
附图说明
[0018]图1为本专利技术中一种可合成多情感音频的语音合成模型方法步骤示意图。
具体实施方式
[0019]实施例,如图1所示,一种可合成多情感音频的语音合成模型方法,包括以下步骤:S1、处理原始数据,区分训练集和验证集,分别添加标注文件,同时将原始数据集交付情感识别模块处理。
[0020]其中,S1中要求吐字清晰、语速适中、音量大小均衡、长度为5

10s的音频,且情绪要求至少5000条训练集,500条验证集。
[0021]S2、调用情感识别模块对数据集进行预处理,将音频拆解成音素和情感特征文件。
[0022]具体的,情感表达在数据侧上和文本表达并无区别,因此可以采用训练对话模型的方式来对情感表达进行训练,在预训练过程中,情感识别模块将首先构建以音素为单位的超小样本,然后通过卷积神经网络(CNN)来提取每个片段的情感特征,转换成numpy数组存储在样本集中。且为实现情感微调,这些numpy数组被依照聚类算法进行了自然组划分,本质上形成了一个连续的特征值谱。
[0023]一般而言,基于深度学习的声学模型训练需要10000条5

10秒的音频作为原始数据来达到商业化应用等级。实现多情感输出所要求的数据量必然更广。大量的标注会产生难以接受的人工工作量,因此本专利技术采用无监督方式来减少消耗。但不可忽视的是,机器标注的误差远大于人工标注,并且常规离散型情感词典的构建将会放大这一问题,导致某一特定情绪特征偏差值较高,通过构建自然数集上连续本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可合成多情感音频的语音合成模型方法,其特征在于,包括以下步骤:S1、处理原始数据,区分训练集和验证集,分别添加标注文件,同时将原始数据集交付情感识别模块处理;S2、调用情感识别模块对数据集进行预处理,将音频拆解成音素和情感特征文件;S3、调用编码器对拆解好的音频进行训练,音频会基于特征文件被编码器自动分类,获取训练好的声学模型;S4、获得模型文件,插入声码器,再输入端输入文本,利用声学模型提供的函数处理文本转换成的音素,随机时长预测器添加音长信息,获得连续的结果音频;S5、根据S4步骤所得产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件;其中,所述S1中要求吐字清晰、语速适中、音量大小均衡、长度为5

10s的音频,且情绪要求至少5000条训练集,500条验证集;其中,所述S2中训练时间用epoch表示,一般在10000个epoch左右收敛,收敛与否主要由偏移量标注。2.根据权利要求1所述的一种可合成多情感音频的语音合成模型方法,其特征在于,所述S2中情感识别模块表达训练步骤如下:S201、首先构建以音素为单位的超小样本;S202、然后通过卷积神经网络来提取每个片段的情感特征;S203、最后转换成numpy数组存储在样本集中。3.根据权利要求2所述的一种可合成多情感音频的语音合成模型方法,其特征在于,所述numpy数组被依照聚类算法进行了自然组划分。4.根据权利要求1所述的一种可合成多情感音频的语音合成模型方法,其特征在于,所述S3中编码器模块对拆解好的音频训练步骤如下:S301、采用变分推理用于从潜在空间中采样隐...

【专利技术属性】
技术研发人员:彭宇飞李海滨李勇刚何熠
申请(专利权)人:联通在线信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1