语音合成模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32196019 阅读:10 留言:0更新日期:2022-02-08 16:01
本公开是关于一种语音合成模型的训练方法、装置、电子设备和存储介质。该方法包括:获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型;基于所述第一模型构建目标模型;基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。本实施例中前端模型可以对待识别文本进行预处理且目标模型可以将预处理后的文本转换成目标音频,可以适用于需要语音的业务场景,提升使用体验。提升使用体验。提升使用体验。

【技术实现步骤摘要】
语音合成模型的训练方法、装置、电子设备和存储介质


[0001]本公开涉及语音合成
,尤其涉及一种语音合成模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着智能化设备的普及以及语音识别技术的发展,人们的交互方式已经慢慢从传统的文本转向了更人性化的语音交互方式。语音合成技术能够让机器拥有人类的声音,改变了传统的文字交互方式。

技术实现思路

[0003]本公开提供一种语音合成模型的训练方法、装置、电子设备和存储介质,以解决相关技术的不足。
[0004]根据本公开实施例的第一方面,提供一种语音合成模型的训练方法,所述方法包括:
[0005]获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;
[0006]利用所述第一训练数据训练所述第一预设模型,获得第一模型;以及利用所述第二训练数据训练所述第二预设模型,获得前端模型;
[0007]基于所述第一模型构建目标模型;
[0008]基于所述目标模型和所述前端模型构建语音合成模型;所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。
[0009]可选地,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。
[0010]可选地,获取第一训练数据,包括:
[0011]获取第一原始文本和所述第一原始文本对应的语音数据,得到第一原始数据;
[0012]根据所述第一原始文本对应的语音数据对所述第一原始文本进行标注,获得所述第一原始文本对应的标注标签;
[0013]将所述第一原始数据及其对应的标注标签作为第一训练数据。
[0014]可选地,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本
[0015]可选地,利用所述第一训练数据训练所述第一预设模型,获得第一模型,包括:
[0016]对所述第一训练数据进行预处理,获得预处理数据;
[0017]基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据;以及根据所述预处理数据获取所述第一预设模型的第二输入数据、第三
输入数据和第四输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;所述第二输入数据是指对所述预处理数据中音素发音帧数求Log对数得到的数据;所述第三输入数据是指将所述音素发音帧数转换成的目标对齐矩阵;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;
[0018]将所述第一输入数据输入到所述第一预设模型,获得所述第一预设模型输出的第一输出数据、第二输出数据、第三输出数据和第四输出数据;
[0019]基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值;
[0020]当所述损失值超过预设的第一损失值阈值时,按照预设调整方式调整所述第一预设模型的各个参数,直至所述损失值小于所述第一损失值阈值时停止训练,得到所述第一模型。
[0021]可选地,基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据,包括:
[0022]将所述预处理数据和所述标注标签按照设定顺序排列,形成第一输入数据。
[0023]可选地,根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据,包括:
[0024]对所述预处理数据中音素发音帧数进行求Log对数,获得第二输入数据;
[0025]将所述音素发音帧数转换成目标对齐矩阵,获得第三输入数据;
[0026]获取所述预处理数据中的梅尔幅度谱参数,获得第四输入数据。
[0027]可选地,基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值,包括:
[0028]根据所述第一输入数据和所述第四输出数据计算音素分类预测损失值,将所述音频分类预测损失值作为第一损失值;
[0029]根据所述第二输入数据和所述第二输出数据计算音素时长预测损失值,将所述音素时长预测损失值作为第二损失值;
[0030]根据所述第三输入数据和所述第三输出数据计算对齐预测损失值,并将所述对齐预测损失值作为第三损失值;
[0031]根据所述第四输入数据和所述第一输出数据计算声学参数预测损失值,并将所述声学参数预测损失值作为第四损失值;
[0032]基于所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值以及各自的权重值计算所述损失函数的损失值。
[0033]可选地,所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值各自的权重值基于以下原则设置:
[0034]所述第一损失值及其权重值的乘积、所述第二损失值及其权重值的乘积、所述第三损失值及其权重值的乘积和所述第四损失值及其权重值的乘积,各乘积的大小均位于同一个预设范围之内;
[0035]所述第四损失值、所述第二损失值、所述第三损失值和所述第一损失值的权重值
依次减小,并且相邻两个权重值的比值超过设定值。
[0036]可选地,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;
[0037]所述文本编码模块的输入数据为第一输入数据;
[0038]所述注意力机制模块的输入数据还包括第四输入数据;
[0039]所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;
[0040]所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;
[0041]所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;
[0042]所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出数据。
[0043]可选地,所述目标模型包括第二模型,基于所述第一模型构建目标模型,包括:
[0044]按照第一预设方式调整所述第一模型的结构,得到第二模型的结构;
[0045]将所述第一模型的参数数据迁移到所述第二模型;所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:获取第一训练数据和第二训练数据,所述第一训练数据用于训练第一预设模型,所述第二训练数据用于训练第二预设模型;利用所述第一训练数据训练所述第一预设模型,获得第一模型;利用所述第二训练数据训练所述第二预设模型,获得前端模型;基于所述第一模型构建目标模型;基于所述目标模型和所述前端模型构建语音合成模型,其中,所述语音合成模型用于对待合成文本进行语音合成以获得目标音频。2.根据权利要求1所述的方法,其特征在于,所述第一训练数据包括第一原始数据及其对应的标注标签;所述第一原始数据包括第一原始文本和根据所述第一原始文本生成的语音数据,所述第一原始数据对应的标注标签包括以下至少一种:声调标签、韵律标签、拟人化标签和情感分类标签。3.根据权利要求1或2所述的方法,其特征在于,获取第一训练数据,包括:获取第一原始文本和所述第一原始文本对应的语音数据,得到第一原始数据;根据所述第一原始文本对应的语音数据对所述第一原始文本进行标注,获得所述第一原始文本对应的标注标签;将所述第一原始数据及其对应的标注标签作为第一训练数据。4.根据权利要求3所述的方法,其特征在于,所述第一原始文本包括第一文本、第二文本和第三文本;所述第一文本是音素数量超过音素数量阈值的文本,所述第二文本是语气词文本,所述第三文本是表征满足拟人化异常发音要求的文本。5.根据权利要求1所述的方法,其特征在于,利用所述第一训练数据训练所述第一预设模型,获得第一模型,包括:对所述第一训练数据进行预处理,获得预处理数据;基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据;以及根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据;所述第一输入数据是指按照设定顺序排序预处理数据和标注标签得到的数据;所述第二输入数据是指对所述预处理数据中音素发音帧数求Log对数得到的数据;所述第三输入数据是指将所述音素发音帧数转换成的目标对齐矩阵;所述第四输入数据是指所述预处理数据的梅尔幅度谱参数;将所述第一输入数据输入到所述第一预设模型,获得所述第一预设模型输出的第一输出数据、第二输出数据、第三输出数据和第四输出数据;基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值;当所述损失值超过预设的第一损失值阈值时,按照预设调整方式调整所述第一预设模型的各个参数,直至所述损失值小于所述第一损失值阈值时停止训练,得到所述第一模型。6.根据权利要求5所述的方法,其特征在于,基于所述第一训练数据中的标注标签和所述预处理数据获取所述第一预设模型的第一输入数据,包括:将所述预处理数据和所述标注标签按照设定顺序排列,形成第一输入数据。
7.根据权利要求5所述的方法,其特征在于,根据所述预处理数据获取所述第一预设模型的第二输入数据、第三输入数据和第四输入数据,包括:对所述预处理数据中音素发音帧数进行求Log对数,获得第二输入数据;将所述音素发音帧数转换成目标对齐矩阵,获得第三输入数据;获取所述预处理数据中的梅尔幅度谱参数,获得第四输入数据。8.根据权利要求5所述的方法,其特征在于,基于所述第一输入数据、所述第二输入数据、所述第三输入数据、所述第四输入数据、所述第一输出数据、所述第二输出数据、所述第三输出数据和所述第四输出数据获取所述第一预设模型对应损失函数的损失值,包括:根据所述第一输入数据和所述第四输出数据计算音素分类预测损失值,将所述音频分类预测损失值作为第一损失值;根据所述第二输入数据和所述第二输出数据计算音素时长预测损失值,将所述音素时长预测损失值作为第二损失值;根据所述第三输入数据和所述第三输出数据计算对齐预测损失值,并将所述对齐预测损失值作为第三损失值;根据所述第四输入数据和所述第一输出数据计算声学参数预测损失值,并将所述声学参数预测损失值作为第四损失值;基于所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值以及各自的权重值计算所述损失函数的损失值。9.根据权利要求8所述的方法,其特征在于,所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值各自的权重值基于以下原则设置:所述第一损失值及其权重值的乘积、所述第二损失值及其权重值的乘积、所述第三损失值及其权重值的乘积和所述第四损失值及其权重值的乘积,各乘积的大小均位于同一个预设范围之内;所述第四损失值、所述第二损失值、所述第三损失值和所述第一损失值的权重值依次减小,并且相邻两个权重值的比值超过设定值。10.根据权利要求5所述的方法,其特征在于,所述第一预设模型的结构包括:文本编码模块、音素过滤模块、加法模块、音素分类模块、时长预测模块、注意力机制模块和声学解码模块;所述音素过滤模块分别与所述文本编码模块、所述加法模块、所述音素分类模块和所述时长预测模块连接;所述加法模块分别与所述时长预测模块中倒数第二个隐藏层、所述声学解码模块和所述注意力机制模块连接;所述文本编码模块的输入数据为第一输入数据;所述注意力机制模块的输入数据还包括第四输入数据;所述声学解码模块的输出数据为预测声学参数,并将所述预测声学参数作为第一输出数据;所述时长预测模块的输出数据为预测音素时长,并将所述预测音素时长作为第二输出数据;所述注意力机制模块的输出数据为预测对齐矩阵,并将所述预测对齐矩阵作为第三输出数据;所述音素分类模块的输出数据为音素分类数据,并将所述音素分类数据作为第四输出
数据。11.根据权利要求10所述的方法,其特征在于,所述目标模型包括第二模型,基于所述第一模型构建目标模型,包括:按照第一预设方式调整所述第一模型的结构,得到第二模型的结构;将所述第一模型的参数数据迁移到所述第二模型;所述第二模型用于输出所述目标音频;其中所述第一预设方式包括:去除所述第一模型中的音素分类模块;保留所述第一模型中的第一输出;将所述第一模型中声学解码模块的输出数据作为所述第一模型中注意力机制模块的输入数据。12.根据权利要求10所述的方法,其特征在于,所述目标模型包括第三模型,基于所述第一模型构建目标模型,包括:按照第二预设方式调整所述第一模型的结构,得到第三模型的结构;将所述第一模型的参数数据迁移到所述第三模型;所述第二模型用于输出所述目标音频;其中所述第二预设方式包括:去除所述第一模型中的音素分类模块;保留所述第一模型中的第一输出;将所述第一模型中的注意力机制模块替换为音素扩展模块;将所述第一模...

【专利技术属性】
技术研发人员:何云超郝东亮栾剑
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1