语音合成方法、模型训练方法、设备及存储介质技术

技术编号：32931848 阅读：18 留言：0更新日期：2022-04-07 12:22

本申请提供一种语音合成方法、模型训练方法、设备及存储介质，该语音合成方法包括：获取待合成文本，输入到训练好的目标语音合成模型，得到待合成文本对应的目标语音；其中，根据预训练集对预设的语音合成模型进行预训练得到语音合成模型；采用目标应用场景对应的目标时长预测网络替换语音合成模型的时长预测网络，得到目标语音合成模型；获取目标训练集，目标训练集包括目标说话人的语音样本；从预训练集中挑选出目标说话人的同类说话人的语音样本进行mask加噪得到加噪语音样本；根据目标训练集和加噪语音样本对目标语音合成模型进行训练，得到训练好的目标语音合成模型。本申请能够合成与特定说话人说话风格更为契合的高质量自然流畅语音。质量自然流畅语音。质量自然流畅语音。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、模型训练方法、设备及存储介质

[0001]本申请涉及语音合成
，尤其涉及一种语音合成方法、模型训练方法、设备及存储介质。

技术介绍

[0002]语音合成(speechsynthesis)又称文语转换(text
‑
to
‑
speech，TTS)，旨在实现将输入文本转换为流畅自然的输出语音，是实现智能人机语音交互的关键技术。
[0003]传统的语音合成技术中，构建一个特定说话人的语音合成模型，需要该特定说话人10
‑
20h的录音数据，并且录音数据质量越好，合成语音的效果越好。随着应用场景的多样化，如手机助理、车载导航、亲人声音复刻等，每个应用场景都要求其代表性发言人大量的录音数据，难度大成本高。然而，现有基于少量训练数据建模得到的语音合成模型，很容易拟合噪声，且合成的语音机械感严重，不够流畅，与说话人的音色、韵律等说话风格也相差甚远。

技术实现思路

[0004]本申请提供了一种语音合成方法、模型训练方法、设备及存储介质，旨在提升语音合成模型的泛化能力和鲁棒性，使得语音合成模型能够合成与特定说话人的说话风格更为契合的高质量自然流畅语音。
[0005]第一方面，本申请提供了一种语音合成方法，所述方法包括：
[0006]获取待合成文本，输入到训练好的目标语音合成模型，得到所述待合成文本对应的目标语音，其中，所述训练好的目标语音合成模型通过如下方法得到：
[0007]根据预训练集对预设的语音合成模型进行预训练...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：获取待合成文本，输入到训练好的目标语音合成模型，得到所述待合成文本对应的目标语音，其中，所述训练好的目标语音合成模型通过如下方法得到：根据预训练集对预设的语音合成模型进行预训练，得到语音合成模型，其中，所述预训练集包括多个说话人的语音样本，所述语音合成模型包括时长预测网络；确定目标应用场景对应的目标时长预测网络，并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络，得到目标语音合成模型；获取目标训练集，其中，所述目标训练集包括目标说话人的语音样本；从所述预训练集中获取与所述目标说话人的同类说话人的语音样本，对所述同类说话人的语音样本进行mask加噪处理，得到加噪语音样本；根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练，得到所述训练好的目标语音合成模型。2.根据权利要求1所述的方法，其特征在于，所述预设的语音合成模型包括序列到序列网络和时长预测网络；所述根据预训练集对预设的语音合成模型进行预训练，得到语音合成模型，包括：根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练，保存所述序列到序列网络和时长预测网络的参数，得到语音合成模型。3.根据权利要求2所述的方法，其特征在于，所述多个说话人的语音样本包括所述多个说话人的音频数据的声学特征，以及所述多个说话人的音频数据的文本对应的音素时长；所述根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练，包括：将所述预训练集中多个说话人的语音样本输入至预设的语音合成模型中，在所述序列到序列网络的编码端对所述声学特征和所述音素时长进行编码，得到声学特征编码向量和音素时长编码向量；在所述序列到序列网络的解码端增加对噪声的嵌入操作得到噪声嵌入向量；以所述音素时长编码向量作为输入，所述音素时长作为预测目标，训练所述时长预测网络；基于所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量，以所述声学特征作为预测目标，训练所述序列到序列网络网络。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：在训练所述时长预测网络时，计算所述时长预测网络的第一损失函数；在训练所述序列到序列网络时，计算所述序列到序列网络的第二损失函数；根据所述第一损失函数和所述第二损失函数，计算所述预设的语音合成模型的损失函数，直至所述损失函数收敛，得到语音合成模型。5.根据权利要求4所述的方法，其特征在于，所述多个说话人的语音样本包括所述多个说话人的音频数据对应的标签，所述标签包括clean标签和noise标签；所述在训练所述序列到序列网络时，计算所述序列到序列网络的第二损失函数，包括：根据所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量获得融合预测向量；
在所述序列到序列网络的解码端对所述融合预测向量进行自回归解码，以使所述序列到序列网络在所述标签为clean标签时学习预测clean声学特征、所述标签为noise标签时学习预测noise声学特征，计算所述序列到序列网络网络的第二损失函数。6.根据权利要求1
‑
5任一项所述的方法，其...

【专利技术属性】
技术研发人员：宋锐，江源，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人