深度学习模型的训练方法、虚拟形象驱动方法和装置制造方法及图纸

技术编号:37159089 阅读:50 留言:0更新日期:2023-04-06 22:22
本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及虚拟人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为:获取样本语音的第一音频特征,样本语音具有虚拟形象标签,虚拟形象标签包含拓扑结构信息;将第一音频特征输入深度学习模型,得到与多个拓扑结构各自对应的多个第一驱动参数;根据拓扑结构信息,从多个第一驱动参数中确定第一目标驱动参数;以及根据拓扑结构信息与第一目标驱动参数之间的差异,调整深度学习模型,以得到经训练的深度学习模型。本公开还提供了一种虚拟形象驱动方法、装置、电子设备和存储介质。电子设备和存储介质。电子设备和存储介质。

【技术实现步骤摘要】
深度学习模型的训练方法、虚拟形象驱动方法和装置


[0001]本公开涉及人工智能
,尤其涉及虚拟人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等
更具体地,本公开提供了一种深度学习模型的训练方法、虚拟形象驱动方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网、三维(3

Dimensional)、增强现实(Augmented Reality)、虚拟现实(Virtual Reality)和元宇宙等技术的飞速发展,虚拟形象在直播、虚拟社交、文娱媒体等方面的应用越来越广泛。

技术实现思路

[0003]本公开提供了一种深度学习模型的训练方法、虚拟形象驱动方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种深度学习模型的训练方法,该方法包括:获取样本语音的第一音频特征,样本语音具有虚拟形象标签,虚拟形象标签包含拓扑结构信息;将第一音频特征输入深度学习模型,得到与多个拓扑结构各自对应的多个第一驱动参数;根据拓扑结构信息,从多个第一驱动参数中确定第一目标驱动参数;以及根本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种深度学习模型的训练方法,包括:获取样本语音的第一音频特征,所述样本语音具有虚拟形象标签,所述虚拟形象标签包含拓扑结构信息;将所述第一音频特征输入深度学习模型,得到与多个拓扑结构各自对应的多个第一驱动参数;根据所述拓扑结构信息,从所述多个第一驱动参数中确定第一目标驱动参数;以及根据所述拓扑结构信息与所述第一目标驱动参数之间的差异,调整所述深度学习模型,以得到经训练的深度学习模型。2.根据权利要求1所述的方法,其中,所述深度学习模型包括与所述多个拓扑结构各自对应的多个子模型;所述将所述第一音频特征输入深度学习模型,得到与多个拓扑结构各自对应的多个第一驱动参数包括:将所述第一音频特征输入所述多个子模型,得到所述多个子模型各自输出的第一驱动参数。3.根据权利要求2所述的方法,其中,所述根据所述拓扑结构信息,从所述多个第一驱动参数中确定第一目标驱动参数包括:根据所述拓扑结构信息,从所述多个子模型中确定目标子模型;将所述目标子模型输出的第一驱动参数确定为所述第一目标驱动参数;所述根据所述拓扑结构信息与所述第一目标驱动参数之间的差异,调整所述深度学习模型,以得到经训练的深度学习模型包括:根据所述拓扑结构信息与所述第一目标驱动参数之间的差异,计算所述目标子模型的掩码损失;根据所述目标子模型的掩码损失,调整所述目标子模型的参数,以得到经训练的深度学习模型。4.根据权利要求3所述的方法,其中,所述根据所述拓扑结构信息与所述第一目标驱动参数之间的差异,计算所述目标子模型的掩码损失包括:根据以下公式计算所述目标子模型的掩码损失:其中,j表示第j个样本语音,j=1,
……
N,N为样本语音的数量,y
j
为第j个样本语音的虚拟形象标签中的拓扑结构信息;i表示第i个子模型,i=1,
……
,K,K为子模型的数量,是第i个子模型针对第j个样本语音输出的第一驱动参数,其中,在第i个子模型是目标子模型的情况下,为所述第一目标驱动参数;L1(
·
)表示平均绝对误差函数,表示第i个子模型的掩码损失,在所述第i个子模型是目标子模型的情况,表示目标子模型的掩码损失。5.根据权利要求1至4中任一项所述的方法,其中,所述拓扑结构信息包括组成所述虚
拟形象标签中的拓扑结构的关键点的数量和位置,所述第一驱动参数包括与该第一驱动参数对应的拓扑结构的关键点的数量和位置。6.一种虚拟形象驱动方法,包括:获取待处理语音的第二音频特征;将所述第二音频特征输入深度学习模型,得到第二驱动参数;以及根据所述第二驱动参数,驱动虚拟形象;其中,所述深度学习模型是根据权利要求1至5中任一项所述的方法进行训练得到的。7.根据权利要求6所述的方法,其中,所述深度学习模型包括与多个拓扑结构各自对应的多个子模型,所述待处理语音包括索引信息,所述索引信息用于指示与所述待处理语音对应的子模型;所述将所述第二音频特征输入深度学习模型,得到第二驱动参数包括:将所述第二音频特征输入与所述待处理语音对应的子模型,得到所述第二驱动参数。8.根据权利要求6所述的方法,其中,所述深度学习模型包括与多个拓扑结构各自对应的多个子模型;所述将所述第二音频特征输入深度学习模型,得到第二驱动参数包括:将所述第二音频特征输入所述多个子模型,得到所述多个子模型各自输出的第二驱动参数;所述根据所述第二驱动参数,驱动虚拟形象包括:根据所述多个子模型各自输出的第二驱动参数,驱动多个虚拟形象。9.一种深度学习模型的训练装置,包括:第一获取模块,用于获取样本语音的第一音频特征,所述样本语音具有虚拟形象标签,所述虚拟形象标签包含拓扑结构信息;第一处理模块,用于将所述第一音频特征...

【专利技术属性】
技术研发人员:杜宗财范锡睿赵亚飞张世昌郭紫垣陈毅王志强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1