【技术实现步骤摘要】
基于扩散过程的文本转语音模型的构建方法及应用
[0001]本申请涉及人工智能语音处理领域,特别是涉及一种基于扩散过程的文本转语音模型的构建方法及应用。
技术介绍
[0002]文本转语音技术的基础是语音合成技术,语音合成是一种通过计算机生成人类可听的语音的技术。早期的语音合成系统采用了基于规则的方法,通过定义一系列的发音规则和语法规则来生成语音。然而,这些系统的语音质量和自然度受限于规则的复杂性和人工设计的限制。
[0003]随着机器学习和深度学习的发展,基于统计和神经网络的方法逐渐成为主流,这些方法使用大规模的语音数据集进行训练,并利用模型学习语音的特征和模式,通过这种方式,计算机可以学会从文本中提取语音的特征,并生成自然流畅的语音。
[0004]但是现有技术在通过神经网络进行文本转语音时需要使用大规模的数据集并耗费大量的时间和计算资源进行训练和推理才能有更好的效果,费时费力,且生成语音的效果也得不到保证,所以亟需一种可以通过小数据集进行训练便可以准确的将文本转换为语音的方法。
技术实现思路
[0005]本申请实施例提供了一种基于扩散过程的文本转语音模型的构建方法及应用,在预训练的语言模型的基础上引入扩散过程,通过扩散和逆扩散过程来使得文本转语音模型可以更好的判断文本数据中的噪声,从而生成更加精准的音频数据,完成整个文本转语音的过程,且降低了文本转语音模型的构建成本。
[0006]第一方面,本申请实施例提供了一种文本转语音模型的构建方法,所述方法包括:
[0007]搭建 ...
【技术保护点】
【技术特征摘要】
1.一种文本转语音模型的构建方法,其特征在于,包括以下步骤:搭建文本转语音模型,所述文本转语音模型由预训练好的文本模型、去噪扩散模型以及预训练好的音频模型组合得到;获取至少一配对的文本
‑
音频数据,使用预训练好的文本模型提取所述文本
‑
音频数据中的文本数据得到文本向量,使用预训练好的音频模型提取所述文本
‑
音频数据中的音频数据得到音频向量;将所述音频向量输入到去噪扩散模型中,使用预定噪声参数对所述音频向量进行逐级的正向扩散得到噪声音频,根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重得到反向扩散过程的噪声估计,使用所述噪声估计对所述噪声音频进行重构得到重构音频向量;使用预训练的音频模型将所述重构音频向量转换为重构音频数据,利用所述重构音频数据同其配对的文本数据的匹配程度对所述去噪扩散模型进行迭代训练,直到所述去噪扩散模型满足训练要求。2.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,所述文本模型的训练方式为:冻结预训练好的文本模型的参数,构建前缀网络,使用所述前缀网络利用恒定的预定义整数向量生成可训练矩阵,所述可训练矩阵包含多个前缀向量,每一前缀向量的大小与所述文本模型的嵌入大小相同,获取所述文本模型的训练样本,将所述训练样本与所述前缀向量一起输入到所述文本模型中以对所述前缀网络的参数进行更新,以训练后的前缀网络的参数调整所述文本模型的前缀参数。3.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,将音频数据进行相互叠加随机组合得到组合音频数据,并连接组合音频数据对应的文本数据组成新的文本
‑
音频数据来进行数据增强。4.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,在“使用预定噪声参数对所述音频向量进行逐级的正向扩散得到噪声音频”步骤中,所述音频向量为一个音频向量序列,根据所述预定噪声参数的高斯分布按顺序为音频向量序列中添加噪声项得到噪声音频。5.根据权利要求1所述的一种文本转语音模型的构建方法,其特征在于,在“根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重得到反向扩散过程的噪声估计”步骤中,根据所述噪声音频、所述文本向量以及逐级反向扩散的每一反扩散步骤的权重来构建损失函数,所述损失函数用来判断噪声音频与对应文本向量的配对情况,根据所述损失函数的结果来获得噪声估计,所述噪...
【专利技术属性】
技术研发人员:许振影,张旷,杨啸天,傅亦婷,周华健,赵宇飞,
申请(专利权)人:浙江一山智慧医疗研究有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。