情感语音合成方法、装置、电子设备和计算机存储介质制造方法及图纸

技术编号:39299275 阅读:14 留言:0更新日期:2023-11-07 11:08
本发明专利技术实施例提供了一种情感语音合成方法、装置、电子设备和介质,涉及语音合成技术领域,该方法包括:对预设的录制完成的图像、音频和录制使用的文本进行情绪检测得到情绪检测结果,并将情绪检测结果与对应音频进行匹配得到带有情感标签的标注音频段,将带有情感标签的标注音频段作为训练数据集对预训练模型进行微调训练得到候选情感语音合成模型,以此为情感标签所训练出的模型合成音的情感表达也会更加精准,微调训练可以更加快速的将少量录音人的情感特征进行迭代训练,最后使用对抗网络对候选情感语音合成模型进行训练,得到最终情感语音合成模型,能够提升模型的语音合成情感表达效果。感表达效果。感表达效果。

【技术实现步骤摘要】
情感语音合成方法、装置、电子设备和计算机存储介质


[0001]本专利技术涉及语音合成
,特别是涉及一种情感语音合成方法、一种情感语音合成装置、一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]目前的语音合成多采用大规模预训练与微调训练的方式,由于大量样本训练好的基础模型已经能够表述目标模型的大部分特征,所以只需要在基础模型上继续叠加训练就能拟合小样本数据又不缺失小样本数据不包含的大量特征。
[0003]但是目前的语音合成主要聚焦于对少量录音的发音人进行声音复刻,并没有针对情感特征进行小样本训练,从而造成在面向情感语音合成的效果方面略有欠缺。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种情感语音合成方法、一种情感语音合成装置、一种电子设备和一种计算机可读存储介质。
[0005]为了解决上述问题,本专利技术实施例公开了一种情感语音合成的方法,所述方法包括:
[0006]对预设的录制完成的图像、音频和录制使用的文本进行情绪检测,得到所述文本中各个语句对应的检测结果;
[0007]将所述检测结果与所述音频进行匹配,得到带有第一情感标签的标注音频段,将所述标注音频段作为训练数据集;
[0008]使用所述训练数据集对预训练模型进行微调训练,得到候选情感语音合成模型;
[0009]使用生成对抗网络对所述候选情感语音合成模型进行训练,得到最终情感语音合成模型;
[0010]将预设的文本数据输入所述最终情感语音合成模型中进行情感语音合成,得到情感合成音频。
[0011]在一个或多个实施例中,所述对预设的录制完成的图像、音频和录制使用的文本进行情绪检测,包括:
[0012]对所述图像进行图像特征提取,得到所述图像的图像特征;
[0013]对所述音频进行音频特征提取,得到所述音频的音频特征;
[0014]对所述录制使用的文本进行文本特征提取,得到所述文本的文本特征;
[0015]将所述图像特征、所述音频特征和所述文本特征进行特征融合,得到最终特征;
[0016]对所述最终特征进行情绪检测。
[0017]在一个或多个实施例中,所述将所述检测结果与所述音频进行匹配,包括:
[0018]获取所述音频中与各个语句对应的音频段;
[0019]将各个语句对应的检测结果与各个音频段进行一一匹配,得到带有第一情感标签
的各个标注音频段。
[0020]在一个或多个实施例中,所述预设的预训练模型通过如下方式生成:
[0021]使用预设的带有第二情感标签的语音标注数据对原始的语音合成模型进行训练,所述第二情感标签通过情感特征分类的方式进行标注。
[0022]在一个或多个实施例中,所述使用生成对抗网络对所述候选情感语音合成模型进行训练,得到最终情感语音合成模型,包括:
[0023]S1、将候选情感语音合成模型作为第一生成器,输入预设的带有第三情感标签的文本,生成第一情感合成音频;
[0024]S2、将第一音频情绪检测模块作为第一鉴别器,输入所述第一情感合成音频,按照所述第三情感标签进行判断,计算所述第一生成器的损失函数和所述第一鉴别器的损失函数;
[0025]S3、采用所述第一生成器的损失函数和所述第一鉴别器的损失函数对所述第一生成器和所述第一鉴别器进行更新,得到更新后的第二生成器和第二鉴别器;
[0026]S4、重复S1至S3,直至更新次数满足预设的更新次数的最大值,得到最终生成器和最终鉴别器,所述最终生成器为最终情感语音合成模型。
[0027]相应的,本专利技术实施例公开了一种情感语音合成的装置,所述装置包括:
[0028]多模态情绪检测模块,用于对预设的录制完成的图像、音频和录制使用的文本进行情绪检测,得到所述文本中各个语句对应的检测结果;
[0029]匹配模块,用于将所述检测结果与所述音频进行匹配,得到带有第一情感标签的标注音频段,将所述标注音频段作为训练数据集;
[0030]微调训练模块,用于使用所述训练数据集对预训练模型进行微调训练,得到候选情感语音合成模型;
[0031]对抗网络训练模块,用于使用生成对抗网络对所述候选情感语音合成模型进行训练,得到最终情感语音合成模型;
[0032]生成模块,用于将预设的文本数据输入所述最终情感语音合成模型中进行情感语音合成,得到情感合成音频。
[0033]在一个或多个实施例中,所述多模态情绪检测模块,用于对预设的录制完成的图像、音频和录制使用的文本进行情绪检测,得到所述文本中各个语句对应的检测结果;
[0034]所述装置还包括:
[0035]多模态情绪检测子模块,用于对所述图像进行图像特征提取,得到所述图像的图像特征;
[0036]对所述音频进行音频特征提取,得到所述音频的音频特征;
[0037]对所述录制使用的文本进行文本特征提取,得到所述文本的文本特征;
[0038]将所述图像特征、所述音频特征和所述文本特征进行特征融合,得到最终特征;
[0039]对所述最终特征进行情绪检测。
[0040]在一个或多个实施例中,所述匹配模块,用于将所述检测结果与所述音频进行匹配,得到带有第一情感标签的标注音频段,将所述标注音频段作为训练数据集;
[0041]所述装置还包括:
[0042]匹配子模块,用于获取所述音频中与各个语句对应的音频段;
[0043]将各个语句对应的检测结果与各个音频段进行一一匹配,得到带有第一情感标签的各个标注音频段。
[0044]在一个或多个实施例中,所述微调训练模块,用于使用所述训练数据集对预训练模型进行微调训练,得到候选情感语音合成模型;
[0045]所述装置还包括:
[0046]预训练模型生成子模块,用于使用预设的带有第二情感标签的语音标注数据对原始的语音合成模型进行训练,所述第二情感标签通过情感特征分类的方式进行标注,得到预训练模型。
[0047]在一个或多个实施例中,所述对抗网络训练模块,用于使用生成对抗网络对所述候选情感语音合成模型进行训练,得到最终情感语音合成模型;
[0048]所述装置还包括:
[0049]合成音频生成子模块:用于将候选情感语音合成模型作为第一生成器,输入预设的带有第三情感标签的文本,生成第一情感合成音频;
[0050]损失函数计算子模块:用于将第一音频情绪检测模块作为第一鉴别器,输入所述第一情感合成音频,按照所述第三情感标签进行判断,计算所述第一生成器的损失函数和所述第一鉴别器的损失函数;
[0051]更新子模块:用于采用所述第一生成器的损失函数和所述第一鉴别器的损失函数对所述第一生成器和所述第一鉴别器进行更新,得到更新后的第二生成器和第二鉴别器;
[0052]重复子模块:用于重复调用所述合成音频生成子模块、所述损失本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感语音合成方法,其特征在于,所述方法包括:对预设的录制完成的图像、音频和录制使用的文本进行情绪检测,得到所述文本中各个语句对应的检测结果;将所述检测结果与所述音频进行匹配,得到带有第一情感标签的标注音频段,将所述标注音频段作为训练数据集;使用所述训练数据集对预训练模型进行微调训练,得到候选情感语音合成模型;使用生成对抗网络对所述候选情感语音合成模型进行训练,得到最终情感语音合成模型;将预设的文本数据输入所述最终情感语音合成模型中进行情感语音合成,得到情感合成音频。2.根据权利要求1所述的方法,其特征在于,所述对预设的录制完成的图像、音频和录制使用的文本进行情绪检测,包括:对所述图像进行图像特征提取,得到所述图像的图像特征;对所述音频进行音频特征提取,得到所述音频的音频特征;对所述录制使用的文本进行文本特征提取,得到所述文本的文本特征;将所述图像特征、所述音频特征和所述文本特征进行特征融合,得到最终特征;对所述最终特征进行情绪检测。3.根据权利要求1所述的方法,其特征在于,所述将所述检测结果与所述音频进行匹配,包括:获取所述音频中与各个语句对应的音频段;将各个语句对应的检测结果与各个音频段进行一一匹配,得到带有第一情感标签的各个标注音频段。4.根据权利要求1所述的方法,其特征在于,所述预设的预训练模型通过如下方式生成:使用预设的带有第二情感标签的语音标注数据对原始的语音合成模型进行训练,所述第二情感标签通过情感特征分类的方式进行标注。5.根据权利要求1所述的方法,其特征在于,所述使用生成对抗网络对所述候选情感语音合成模型进行训练,得到最终情感语音合成模型,包括:S1、将候选情感语音合成模型作为第一生成器,输入预设的带有第三情感标签的文本,生成第一情感合成音频;S2、将第一音频情绪检测模块作为第一鉴别器,输入所述第一情感合成音频,按照所述第三情感标签进行判断,计算所述第一生成器的损失函数和所述第一鉴别器的损失函数;S3、采用所述第一生成器的损失函数和所述第一鉴别器的损失函数对所述第一生成器和所述第一鉴别器进行更新,得到更新后的第二生成器和第二鉴别器;S4、重复S1至S3,直至更新次数满足预设的更...

【专利技术属性】
技术研发人员:周科霖李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1