生成虚拟形象的方法、电子设备和计算机程序产品技术

技术编号:38368000 阅读:13 留言:0更新日期:2023-08-05 17:33
本公开的实施例涉及生成虚拟形象的方法、电子设备和计算机程序产品。虚拟形象的生成方法包括生成视频的图像信息、语音信息以及文本信息之间的关联性的指示。该方法还可以包括基于关联性的指示,生成表示视频中的目标对象的特征的第一特征集合和第二特征集合,其中,第一特征集合表示视频中的目标对象的不变性特征,第二特征集合包括表示视频中的目标对象的等变性特征。该方法还可以基于第一特征集合和第二特征集合,生成虚拟形象。通过该方法,可以使得生成的虚拟形象更加准确形象,效果更好;同时,降低了数据标注的成本,提升了操作效率,并进一步提升了用户体验。并进一步提升了用户体验。并进一步提升了用户体验。

【技术实现步骤摘要】
生成虚拟形象的方法、电子设备和计算机程序产品


[0001]本公开的实施例涉及视频处理,并且更具体地,涉及基于视频生成虚拟形象的方法、电子设备和计算机程序产品。

技术介绍

[0002]随着计算机视觉技术的不断发展,3D人脸重建越来越得到广泛应用,例如,基于3D人脸重建可以生成虚拟形象,可以应用在诸如远程会议、娱乐等应用场景中,提升用户的体验。当前,通常采用点云技术实现3D人脸重建。然而,点云技术需要依赖于大量的标注数据,这就降低了人脸重建的效率并且提升了处理成本。此外,现有的技术在生成虚拟形象的过程中,并不能非常准确地获得人脸不变性特征的表示,而且缺乏对输入信息的关联性的利用,因此,生成的虚拟形象效果并不令人满意。

技术实现思路

[0003]根据本公开的第一方面,提供了一种生成虚拟形象的方法。该方法包括:生成视频的图像信息、语音信息以及文本信息之间的关联性的指示;基于关联性的指示,生成表示视频中的目标对象的特征的第一特征集合和第二特征集合,其中,第一特征集合表示视频中的目标对象的不变性特征,第二特征集合包括表示视频中的目标对象的等变性特征;以及基于第一特征集合和第二特征集合,生成虚拟形象。
[0004]根据本公开的第二方面,提供了一种虚拟形象生成模型的训练方法。该训练方法包括:接收样本图像、样本语音以及样本文本,样本图像中包括目标对象;生成样本图像、样本语音以及样本文本之间的关联性的指示;基于关联性的所述指示,生成用于表示目标对象的特征的第一训练特征集合和第二训练特征集合;以及基于第一训练特征集合和训练第二特征集合,训练虚拟形象生成模型。
[0005]根据本公开的第三方面,提供了一种用于生成虚拟形象的装置。该装置包括关联性指示生成单元、特征集合生成单元、以及虚拟形象生成单元。所述关联性指示生成单元被配置为生成视频的图像信息、语音信息以及文本信息之间的关联性的指示。特征集合生成单元被配置为基于关联性的指示,生成表示视频中的目标对象的特征的第一特征集合和第二特征集合,其中,第一特征集合表示视频中的目标对象的不变性特征,第二特征集合包括表示视频中的目标对象的等变性特征。并且,虚拟形象生成单元被配置为基于第一特征集合和第二特征集合,生成虚拟形象。
[0006]根据本公开的第四方面,提供了一种用于训练虚拟形象生成模型的训练装置。该训练装置包括接收单元、训练关联性指示生成单元、训练特征集合生成单元以及训练单元。接收单元被配置为接收样本图像、样本语音以及样本文本,样本图像中包括目标对象;训练关联性指示生成单元被配置为生成样本图像、样本语音以及样本文本之间的关联性的指示。训练特征集合生成单元被配置为基于关联性的所述指示,生成用于表示目标对象的特征的第一训练特征集合和第二训练特征集合。并且,训练单元被配置为基于第一训练特征
集合和训练第二特征集合,训练虚拟形象生成模型。
[0007]根据本公开的第五方面,提供了一种电子设备。该电子设备包括至少一个处理单元以及至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,该指令当由至少一个处理单元执行时,使电子设备执行根据本公开的第一方面的方法。
[0008]根据本公开的第六方面,提供了一种电子设备。该电子设备包括至少一个处理单元以及至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,该指令当由至少一个处理单元执行时,使电子设备执行根据本公开的第二方面的方法。
[0009]根据本公开的第七方面,提供了一种计算机可读存储介质,包括机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面的方法。
[0010]根据本公开的第八方面,提供了一种计算机可读存储介质,包括机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第二方面的方法。
[0011]根据本公开的第九方面,提供了一种计算机程序产品,计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,机器可执行指令在由设备执行时使设备执行根据第一方面的方法。
[0012]根据本公开的第十方面,提供了一种计算机程序产品,计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,机器可执行指令在由设备执行时使设备执行根据第二方面的方法。
附图说明
[0013]通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
[0014]图1为根据本公开的一些实施例的应用场景的框图。
[0015]图2为根据本公开的一些实施例的生成虚拟形象的方法的示例流程图。
[0016]图3中示出了根据本公开的一些实施例的特征处理的示意图。
[0017]图4为根据本公开的一些实施例的应用虚拟形象生成方法的架构图。
[0018]图5为根据本公开的一些实施例的用于虚拟形象生成模型的训练方法的示例流程图。
[0019]图6为根据本公开的一些实施例的用于生成第一训练特征集合和第二训练特征集合的更详细的示例流程图。
[0020]图7为根据本公开的一些实施例的虚拟形象生成的装置的示意性框图。
[0021]图8为根据本公开的一些实施例的训练虚拟形象生成模型的训练装置的示意性框图。
[0022]图9示出了可以用来实施根据本公开的一些实施例的示例设备的示意性框图。
具体实施方式
[0023]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些
实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0024]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0025]随着通信网络技术和计算机视觉技术的发展,3D人脸重建越来越多地应用在人们的工作和生活中。例如,基于3D人脸重建生成虚拟形象,也得到越来越多的应用。例如,基于3D人脸重建可以生成虚拟形象,可以应用在诸如远程会议、娱乐等应用场景中,提升用户的体验。当前,通常采用点云技术实现3D人脸重建。然而,点云技术需要依赖于大量的标注数据,这就降低了人脸重建的效率并且提升了处理成本。此外,现有的技术在生成虚拟形象的过程中,并不能非常准确地获得人脸不变性特征的表示,而且缺乏对输入信息的关联性的利用,因此,生成的虚拟形象效果并不总令人满意。
[0026]至少为了解决上述和其他潜在问题,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成虚拟形象的方法,包括:生成视频的图像信息、语音信息以及文本信息之间的关联性的指示;基于所述关联性的所述指示,生成表示所述视频中的目标对象的特征的第一特征集合和第二特征集合,其中,所述第一特征集合表示所述视频中的目标对象的不变性特征,所述第二特征集合包括表示所述视频中的目标对象的等变性特征;以及基于所述第一特征集合和所述第二特征集合,生成所述虚拟形象。2.根据权利要求1所述的方法,生成视频的图像信息、语音信息以及文本信息之间的关联性的指示,包括:分别对所述图像信息、所述语音信息以及所述文本信息进行编码,生成对应的图像特征集合、语音特征集合和文本特征集合;以及基于所述图像特征集合、所述语音特征集合和所述文本特征集合之间的关联性,生成所述关联性的所述指示。3.根据权利要求2所述的方法,其中,所述关联性的所述指示中的每个元素表示所述图像特征集合、所述语音特征集合和所述文本特征集合中的每个特征集合的对应索引处的元素之间的关联性。4.根据权利要求1所述的方法,其中,所述关联性的所述指示包括合成张量,并且其中基于所述关联性的所述指示,生成表示所述视频中的目标对象的特征的第一特征集合和第二特征集合,包括:分解所述合成张量,以获得分解后的图像特征集合、分解后的语音特征集合以及分解后的文本特征集合;整合所述分解后的图像特征集合、所述分解后的语音特征集合以及所述分解后的文本特征集合,以生成经整合的特征集合。5.根据权利要求4所述的方法,基于所述指示,生成表示所述视频中的目标对象的特征的第一特征集合和第二特征集合,还包括:将所述经整合的特征集合分解为所述第一特征集合和所述第二特征集合。6.根据权利要求1所述的方法,其中,所述方法由经训练的模型执行,其中,通过迭代执行以下动作来训练所述模型:获取训练特征集合以及对应的经变换的训练特征集合,其中,所述对应的经变换的训练特征集合经由对所述训练特征集合中的训练特征进行变换之后得到;分解所述训练特征集合,获得分解的第一训练特征集合和分解的第二训练特征集合;分解所述经变换的训练特征集合,获得第一经变换的分解训练特征集合和第二经变换的分解训练特征集合;根据所述分解的第一训练特征集合和所述第一经变换的分解训练特征集合,获得第一相似度损失;根据所述分解的第二训练特征集合和所述第二经变换的分解训练特征集合,获得第二相似度损失。7.根据权利要求1所述的方法,所述方法还包括:基于所述第一特征集合和所述第二特征集合,获取所述目标对象的表情参数、属性参数和姿态参数;
根据获取到的表情参数、属性参数和姿态参数,对待渲染对象进行渲染,以生成所述虚拟形象。8.根据权利要求1所述的方法,所述方法还包括:对所述语音信息进行语音识别,以获得所述文本信息。9.根据权利要求1所述的方法,其中,所述图像信息、所述语音信息以及所述文本信息在所述视频中具有时间一致性。10.一种虚拟形象生成模型的训练方法,包括:接收样本图像、样本语音以及样本文本,所述样本图像中包括目标对象;生成所述样本图像、所述样本语音以及所述样本文本之间的关联性的指示;基于所述关联性的所述指示,生成用于表示所述目标对象的特征的第一训练特征集合和第二训练特征集合;以及基于所述第一训练特征集合和所述训练第二特征集合,训练所述虚拟形象生成模型。11.根据权利要求10所述的训练方法,生成所述样本图像、所述样本语音以及所述样本...

【专利技术属性】
技术研发人员:王子嘉沙丹青倪嘉呈贾真
申请(专利权)人:戴尔产品有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1