基于扩散过程的文本转语音模型的构建方法及应用技术

技术编号:39245872 阅读:8 留言:0更新日期:2023-10-30 11:58
本申请提出了一种基于扩散过程的文本转语音模型的构建方法及应用,包括以下步骤:搭建文本转语音模型,包括预训练的文本模型、去噪扩散模型和音频模型;使用配对的文本

【技术实现步骤摘要】
基于扩散过程的文本转语音模型的构建方法及应用


[0001]本申请涉及人工智能语音处理领域,特别是涉及一种基于扩散过程的文本转语音模型的构建方法及应用。

技术介绍

[0002]文本转语音技术的基础是语音合成技术,语音合成是一种通过计算机生成人类可听的语音的技术。早期的语音合成系统采用了基于规则的方法,通过定义一系列的发音规则和语法规则来生成语音。然而,这些系统的语音质量和自然度受限于规则的复杂性和人工设计的限制。
[0003]随着机器学习和深度学习的发展,基于统计和神经网络的方法逐渐成为主流,这些方法使用大规模的语音数据集进行训练,并利用模型学习语音的特征和模式,通过这种方式,计算机可以学会从文本中提取语音的特征,并生成自然流畅的语音。
[0004]但是现有技术在通过神经网络进行文本转语音时需要使用大规模的数据集并耗费大量的时间和计算资源进行训练和推理才能有更好的效果,费时费力,且生成语音的效果也得不到保证,所以亟需一种可以通过小数据集进行训练便可以准确的将文本转换为语音的方法。

技术实现思路

[0005]本申请实施例提供了一种基于扩散过程的文本转语音模型的构建方法及应用,在预训练的语言模型的基础上引入扩散过程,通过扩散和逆扩散过程来使得文本转语音模型可以更好的判断文本数据中的噪声,从而生成更加精准的音频数据,完成整个文本转语音的过程,且降低了文本转语音模型的构建成本。
[0006]第一方面,本申请实施例提供了一种文本转语音模型的构建方法,所述方法包括:
[0007]搭建文本转语音模型,所述文本转语音模型由预训练好的文本模型、去噪扩散模型以及预训练好的音频模型组合得到;
[0008]获取至少一配对的文本

音频数据,使用预训练好的文本模型提取所述文本

音频数据中的文本数据得到文本向量,使用预训练好的音频模型提取所述文本

音频数据中的音频数据得到音频向量;
[0009]将所述音频向量输入到去噪扩散模型中,使用预定噪声参数对所述音频向量进行逐级的正向扩散得到噪声音频,根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重得到反向扩散过程的噪声估计,使用所述噪声估计对所述噪声音频进行重构得到重构音频向量;
[0010]使用预训练的音频模型将所述重构音频向量转换为重构音频数据,利用所述重构音频数据同其配对的文本数据的匹配程度对所述去噪扩散模型进行迭代训练,直到所述去噪扩散模型满足训练要求。
[0011]第二方面,本申请实施例提供了一种文本转语音方法,包括:
[0012]获取一待转换文本,将所述待转换文本输入到训练好的文本转语音模型中,文本转语音模型中的文本模型提取所述待转换文本中的文本数据得到文本向量;
[0013]所述文本转语音模型根据文本向量生成音频向量,再通过预训练好的音频模型将音频向量数据转换为梅尔频谱,通过声码器将梅尔频谱转换为音频数据。
[0014]第三方面,本申请实施例提供了一种文本转语音模型的构建装置,包括:
[0015]构建模块:搭建文本转语音模型,所述文本转语音模型由预训练好的文本模型、去噪扩散模型以及预训练好的音频模型组合得到;
[0016]获取模块:获取至少一配对的文本

音频数据,使用预训练好的文本模型提取所述文本

音频数据中的文本数据得到文本向量,使用预训练好的音频模型提取所述文本

音频数据中的音频数据得到音频向量;
[0017]去噪扩散模块:将所述音频向量输入到去噪扩散模型中,使用预定噪声参数对所述音频向量进行逐级的正向扩散得到噪声音频,根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重得到反向扩散过程的噪声估计,使用所述噪声估计对所述噪声音频进行重构得到重构音频向量;
[0018]验证模块:使用预训练的音频模型将所述重构音频向量转换为重构音频数据,利用所述重构音频数据同其配对的文本数据的匹配程度对所述去噪扩散模型进行迭代训练,直到所述去噪扩散模型满足训练要求。
[0019]第四方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种文本转语音模型的构建方法或一种文本转语音方法。
[0020]第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种文本转语音模型的构建方法或一种文本转语音方法。
[0021]本专利技术的主要贡献和创新点如下:
[0022]本申请实施例通过Chinese

Vicuna大语言模型来对文本数据进行处理,使其得到的文本向量可以更好的强调关键细节,较少噪音并提供丰富的上下文信息;本方案在对Chinese

Vicuna大语言模型进行预训练时通过冻结参数并添加可训练矩阵来进行训练,且只需更新大语言模型的小的特定任务前缀的方式也进一步降低了训练成本,使得模型的训练稳定性大大提高;本方案通过在正扩增过程中设置噪声参数,并根据噪声参数的高斯分布来对音频数据进行扩散以及逆扩散来生成高质量的重构音频向量,并且使得整个模型可以更好的学习如何消除噪声,使其在应用时能够更好的将文本转为语音;本方案在逆扩散过程中通过设置指导比例来控制文本向量对消除噪声的影响从而可以更符合具体应用场景的需求,在重构过程中灵活地控制文本指导的程度,以获得更符合预期的重构结果,进而达到小样本数据量训练得到高精度的高精度的文本转语音模型。
[0023]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0024]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0025]图1是根据本申请实施例的一种文本转语音模型的构建方法的流程图;
[0026]图2是根据本申请实施例的一种基于扩散过程的文本转语音模型的构建方法的结构示意图;
[0027]图3是根据本申请实施例的一种文本转语音模型的构建装置的结构框图;
[0028]图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0030]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本转语音模型的构建方法,其特征在于,包括以下步骤:搭建文本转语音模型,所述文本转语音模型由预训练好的文本模型、去噪扩散模型以及预训练好的音频模型组合得到;获取至少一配对的文本

音频数据,使用预训练好的文本模型提取所述文本

音频数据中的文本数据得到文本向量,使用预训练好的音频模型提取所述文本

音频数据中的音频数据得到音频向量;将所述音频向量输入到去噪扩散模型中,使用预定噪声参数对所述音频向量进行逐级的正向扩散得到噪声音频,根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重得到反向扩散过程的噪声估计,使用所述噪声估计对所述噪声音频进行重构得到重构音频向量;使用预训练的音频模型将所述重构音频向量转换为重构音频数据,利用所述重构音频数据同其配对的文本数据的匹配程度对所述去噪扩散模型进行迭代训练,直到所述去噪扩散模型满足训练要求。2.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,所述文本模型的训练方式为:冻结预训练好的文本模型的参数,构建前缀网络,使用所述前缀网络利用恒定的预定义整数向量生成可训练矩阵,所述可训练矩阵包含多个前缀向量,每一前缀向量的大小与所述文本模型的嵌入大小相同,获取所述文本模型的训练样本,将所述训练样本与所述前缀向量一起输入到所述文本模型中以对所述前缀网络的参数进行更新,以训练后的前缀网络的参数调整所述文本模型的前缀参数。3.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,将音频数据进行相互叠加随机组合得到组合音频数据,并连接组合音频数据对应的文本数据组成新的文本

音频数据来进行数据增强。4.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,在“使用预定噪声参数对所述音频向量进行逐级的正向扩散得到噪声音频”步骤中,所述音频向量为一个音频向量序列,根据所述预定噪声参数的高斯分布按顺序为音频向量序列中添加噪声项得到噪声音频。5.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,在“根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重得到反向扩散过程的噪声估计”步骤中,根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重来构建损失函数,所述损失函数用来判断噪声音频与对应文本向量的配对情况,根据所述损失函数的结果来获得噪声估计,所述噪...

【专利技术属性】
技术研发人员:许振影张旷杨啸天傅亦婷周华健赵宇飞
申请(专利权)人:浙江一山智慧医疗研究有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1