【技术实现步骤摘要】
一种基于情感迁移的语音合成方法、装置、设备及介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于情感迁移的语音合成方法、装置、设备及介质。
技术介绍
[0002]语音合成是一种能够将指定文本转换为目标说话人合成语音的技术,是服务于语音交互、信息播报、有声朗读等任务的核心技术。随着深度学习技术的迅猛发展,语音合成的自然度和音质有了很大的提升。然而,人类语音是富含表现力和情感的,如何在合成语音中呈现适当的情感对于构建多样化的语音生成系统至关重要。
[0003]情感迁移旨在保持目标说话人音色的同时,将源语音中的情感迁移到目标说话人的语音上。现有的跨说话人情感解耦与迁移研究大多基于Tacotron2和FastSpeech2,虽然能较好的建模情感信息,但Tacotron2是自回归模型,训练和推理速度较慢,FastSpeech2在长句合成方面效果不够理想,存在合成语音精度较低的问题。因此,在跨说话人情感迁移的情况下,如何提高合成语音的精度成为亟待解决的问题。
技术实现思路
[0004]基于此,有必要 ...
【技术保护点】
【技术特征摘要】
1.一种基于情感迁移的语音合成方法,其特征在于,所述语音合成方法包括:获取待合成语音的文本信息以及指导所述文本信息进行情感迁移的真实语音信息;对所述真实语音信息进行情感解耦,确定所述真实语音信息中每个词组对应的情感嵌入特征;基于预设的编码器对所述文本信息进行编码,得到编码后的特征文本,将每个词组对应的情感嵌入特征嵌入所述编码后的特征文本中对应的词组上,得到目标特征文本;将所述目标特征文本和预设的音色输入至语音合成器中,输出合成的语音音频。2.如权利要求1所述的语音合成方法,其特征在于,所述将所述目标特征文本和预设的音色输入至语音合成器中,输出合成的语音音频之前,还包括:获取样本训练数据,所述样本训练数据为文本数据以及文本数据对应的语音数据,所述语音数据标注有语音数据中每个词组对应真实标签,所述真实标签包括真实情感标签与真实类别标签;对所述语音数据进行情感解耦,解耦出所述语音数据中每个词组对应的第一解耦情感嵌入特征与第一解耦类别嵌入特征,得到第一解耦特征,根据所述第一解耦特征与所述真实标签,获取所述第一解耦特征与所述真实标签之间的第一损失函数;基于文本编码器对所述文本数据进行编码,得到编码后的训练特征文本,将每个词组对应的解耦情感嵌入特征,嵌入所述编码后的训练特征文本中对应的词组上,得到目标训练特征文本;将所述目标训练特征文本与文本数据对应的音色输入至语音合成器中,输出目标语音音频;对所述目标语音音频进行情感解耦,解耦出所述目标语音音频中每个词组对应的第二解耦情感嵌入特征与迭第二解耦类别嵌入特征,得到第二解耦特征,根据所述第二解耦特征与所述真实标签,获取所述第二解耦特征与所述真实标签之间的第二损失函数;获取基于所述第一损失函数与所述第二损失函数得到的目标损失函数,根据所述目标损失函数,对所述语音合成器进行训练,得到训练好的语音合成器。3.如权利要求2所述的语音合成方法,其特征在于,所述对所述语音数据进行情感解耦,解耦出所述语音数据中每个词组对应的第一解耦情感嵌入特征与第一解耦类别嵌入特征,得到第一解耦特征,根据所述第一解耦特征与所述真实标签,获取所述第一解耦特征与所述真实标签之间的第一损失函数,包括:基于第一情感编码器对所述语音数据进行编码,得到编码后的第一情感嵌入特征;基于第一类别编码器对所述语音数据进行编码,得到编码后的第一类别嵌入特征;根据所述第一情感嵌入特征与所述第一类别嵌入特征,以及所述真实情感标签与真实类别标签,得到第一子损失函数集,根据所述第一子损失函数集,构建第一损失函数。4.如权利要求3所述的语音合成方法,其特征在于,所述根据所述第一情感嵌入特征与所述第一类别嵌入特征,以及所述真实情感标签与真实类别标签,得到第一子损失函数集,根据所述第一子损失函数集,构建第一损失函数,包括:根据所述第一情感嵌入特征与所述所述真实情感标签,获取第一情感损失函数,根据所述第一类别嵌入特征与所述真实类别标签,获取第一类别损失函数;计算所述第一情感嵌入特征与所述第一类别嵌入特征之间的正交损失,获取第一...
【专利技术属性】
技术研发人员:郭洋,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。