模型训练、语音生成方法、装置、设备及介质制造方法及图纸

技术编号：43345342 阅读：24 留言：0更新日期：2024-11-15 20:42

本发明专利技术公开了模型训练、语音生成方法、装置、设备及介质。方法包括：根据目标文本对应的音素特征表示与目标对象声音的嵌入表示，生成携带有目标对象声音特性的先验音素特征分布参数；将目标对象声音的嵌入表示和先验音素特征分布参数输入到第一模型进行一致性知识蒸馏训练，得到第二模型；其中，第二模型从第一模型学习到生成融合目标对象声音特性预测语音的能力。在训练过程中，将目标对象嵌入输入到不同模型中，从而实现整体提升模型输出的语音信息的自然语言表达能力，使得语言信息能够更加准确的体现出目标对象声音特性。此外，采用知识蒸馏方式训练得到第二模型，从而能够有效提升训练效率以及后续模型应用过程中语音生成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及互联网，尤其涉及模型训练、语音生成方法、装置、设备及介质。

技术介绍

1、在人机互动场景中，用户可以通过多种方式与虚拟对象互动。为了使得用户获得更好的交互体验，虚拟对象可以通过动作、表情、语言等多种方式作出回应。

2、其中，虚拟对象与用户通过语音交互是一种常见交互方式。然而，现有的语音交互过程中，虚拟对象的语音表达往往比较单一。比如，不同虚拟对象所表达出的语音比较雷同，或者，仅仅通过不同音色表示不同性别的虚拟人物。无法像真实人物一样通过语音交互，用户难以获得真实的交互体验。因此，需要一种快速生成更加真实语音信息的方案。

技术实现思路

1、本专利技术实施例提供模型训练、语音生成方法、装置、设备及介质，用以提高生成语音信息的效率和真实效果的方案。

2、第一方面，本专利技术实施例提供一种模型训练方法，该方法包括：

3、根据目标文本对应的音素特征表示与目标对象声音的嵌入表示，生成携带有目标对象声音特性的先验音素特征分布参数；

4、...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标对象声音的嵌入表示和所述先验音素特征分布参数输入到第一模型进行一致性知识蒸馏训练，得到第二模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述在确定所述预测样本符合需求的情况下，进行一致性知识蒸馏训练得到所述第二模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据目标文本对应的音素特征表示与目标对象声音的嵌入表示，生成携带有目标对象声音特性的先验音素特征分布参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述在确定所述预测样本符合需求的情况下，进行一致性知识蒸馏训练得到所述第二模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述编码音素向量进行处理，得到携带有预测时长的所述先验音素特征分布参数，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用第二损失函数对所述待校正分布参数进行校正，得到携带有所述预测时长的所述先验音素特征分布参数，包括：

7.一种语音生成方法，其特征在于，所述方法包括：

8...

【专利技术属性】
技术研发人员：刘博翀，柳毅恒，刘炎，覃建策，陈邦忠，
申请(专利权)人：完美世界北京软件科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人