生成数字人形象的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39307195 阅读:8 留言:0更新日期:2023-11-12 15:55
本申请提供了一种生成数字人形象的方法、装置、电子设备及存储介质,该方法包括:响应于接收到第一用户输入数据,对所述第一用户输入数据进行预处理,其中,所述第一用户输入数据用于描述待生成的数字人形象的特征;基于预处理后的所述第一用户输入数据和第一随机噪声向量,利用深度学习方法生成多个数字人形象,并呈现所述多个数字人形象供用户选择;响应于接收到第二用户输入数据,基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象,得到多个修正后的数字人形象,所述第二随机噪声向量的维度小于所述第一随机噪声向量的维度。本申请解决了现有技术中数字人生成工具生成的数字人形象的个性化程度较低的技术问题。术问题。术问题。

【技术实现步骤摘要】
生成数字人形象的方法、装置、电子设备及存储介质


[0001]本申请涉及数字人生成
,具体而言,涉及一种生成数字人形象的方法、装置、电子设备及存储介质。

技术介绍

[0002]目前存在两种主要的数字人生成方法。
[0003]第一种方法是提供一系列预先生成的数字人形象供用户选择。这些数字人形象通常经过精心设计和渲染,以确保它们看起来吸引人且适用于各种应用场景。用户可以从这些选项中选择一个或多个数字人形象,用作他们的虚拟代表或角色。然而,这种方法的主要问题是缺乏个性化和定制性。每个用户都有独特的外貌特征和风格偏好,但他们只能从有限的选项中进行选择,从而限制了他们的自由度。
[0004]另一种实现方式是允许用户通过所谓的“捏脸”操作来创建个性化的数字人。在这种情况下,用户可以在数字人形象的基础上进行调整,包括调整头发、眼睛、鼻子、嘴巴等特征,以满足他们的个性化需求。尽管这种方法允许一定程度的个性化,但通常需要用户花费大量时间和精力来微调数字人形象。这对于那些希望快速创建数字人形象的用户来说可能不是最佳选择,并且对于不熟悉数字建模工具的用户来说可能会感到困难。
[0005]总体而言,现有的数字人生成工具仍然存在缺乏个性化、定制性差以及效率较低的问题。
[0006]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0007]本专利技术实施例提供了一种生成数字人形象的方法、装置、电子设备及存储介质,以至少解决现有技术中数字人生成工具生成的数字人形象的个性化程度较低的技术问题。
[0008]根据本专利技术实施例的一个方面,提供了一种生成数字人形象的方法,包括:响应于接收到第一用户输入数据,对所述第一用户输入数据进行预处理,其中,所述第一用户输入数据用于描述待生成的数字人形象的特征;基于预处理后的所述第一用户输入数据和第一随机噪声向量,利用深度学习方法生成多个数字人形象,并呈现所述多个数字人形象供用户选择;响应于接收到第二用户输入数据,基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象,得到多个修正后的数字人形象,所述第二随机噪声向量的维度小于所述第一随机噪声向量的维度。
[0009]根据本专利技术实施例的另一方面,还提供了一种生成数字人形象的装置,包括:预处理模块,被配置为响应于接收到第一用户输入数据,对所述第一用户输入数据进行预处理,其中,所述第一用户输入数据用于描述待生成的数字人形象的特征;生成模块,被配置为基于预处理后的所述第一用户输入数据和第一随机噪声向量,利用深度学习方法生成多个数字人形象,并呈现所述多个数字人形象供用户选择;修正模块,被配置为响应于接收到第二用户输入数据,基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象,
得到多个修正后的数字人形象,其中,所述第二随机噪声向量的维度小于所述第一随机噪声向量的维度。
[0010]在本专利技术实施例中,响应于接收到第一用户输入数据,对所述第一用户输入数据进行预处理;基于预处理后的所述第一用户输入数据和第一随机噪声向量,利用深度学习方法生成多个数字人形象,并呈现所述多个数字人形象供用户选择;响应于接收到第二用户输入数据,基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象,得到多个修正后的数字人形象,所述第二随机噪声向量的维度小于所述第一随机噪声向量的维度。通过上述方法,解决了现有技术中数字人生成工具生成的数字人形象的个性化程度较低的技术问题。
附图说明
[0011]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种生成数字人形象的方法的流程图;图2是根据本申请实施例的另一种生成数字人形象的方法的流程图;图3是根据本申请实施例的一种从图像数据中识别目标对象的方法的流程图;图4是根据本申请实施例的一种提取文本描述信息的方法的流程图;图5是根据本申请实施例的一种基于文本描述信息生成数字人形象的方法的流程图;图6是根据本申请实施例的一种数字人形象AI生成方法的流程图;图7是根据本申请实施例的一种生成数字人形象的装置的结构示意图;图8示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
[0012]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0013]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0014]除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到 :相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0015]实施例1本申请实施例提供了一种生成数字人形象的方法,如图1所示,该方法包括以下步
骤:步骤S102,响应于接收到第一用户输入数据,对所述第一用户输入数据进行预处理,其中,所述第一用户输入数据用于描述待生成的数字人形象的特征。
[0016]在所述第一用户输入数据为图像数据的情况下,对所述图像数据进行目标检测,识别所述图像数据中的目标对象,从所述目标对象中提取图像特征,并基于所述图像特征得到所述文本描述信息;在所述第一用户输入数据为语音数据的情况下,从所述语音数据中提取音频特征,并基于所述音频特征得到所述文本描述信息;在所述第一用户输入数据为文本数据的情况下,将所述文本数据作为所述文本描述信息。
[0017]本实施例允许处理多种不同类型的用户输入数据,包括图像数据、语音数据和文本数据。这种多模态数据处理的能力可以增加方法的适用性,使其能够应对各种不同的用户需求和数据来源。此外,对于图像数据,通过目标检测和特征提取,可以从图像中识别目标对象并提取有关这些对象的关键信息。这有助于将视觉信息转化为文本形式,便于后续的处理和理解。对于语音数据,通过音频特征提取,系统可以将声音转化为文本描述,使得语音信息能够与文本数据一起处理。对于文本数据,系统直接使用原始文本,无需进行额外的处理。这种信息提取和转换有益于多模态数据的融合和统一处理。总体而言,本实施例能够处理多样性的用户输入数据,并将其转化为文本描述信息,从而为后续的处理和应用提供了更多的可能性和灵活性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成数字人形象的方法,其特征在于,包括:响应于接收到第一用户输入数据,对所述第一用户输入数据进行预处理,其中,所述第一用户输入数据用于描述待生成的数字人形象的特征;基于预处理后的所述第一用户输入数据和第一随机噪声向量,利用深度学习方法生成多个数字人形象,并呈现所述多个数字人形象供用户选择;响应于接收到第二用户输入数据,基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象,得到多个修正后的数字人形象,其中,所述第二随机噪声向量的维度小于所述第一随机噪声向量的维度,所选数字人形象是用户从所述多个数字人形象中选择出的一个数字人形象。2.根据权利要求1所述的方法,其特征在于,基于预处理后的所述第一用户输入数据和第一随机噪声向量,利用深度学习方法生成多个数字人形象,包括:基于预处理后的所述第一用户输入数据得到文本描述信息,并将所述文本描述信息和所述第一随机噪声向量进行融合,得到条件输入向量,其中,所述第一随机噪声向量的维度小于预设维度阈值;基于所述条件输入向量,利用所述深度学习方法生成所述多个数字人形象。3.根据权利要求2所述的方法,其特征在于,将所述文本描述信息和所述第一随机噪声向量进行融合,得到条件输入向量,包括:确定插值系数,其中,所述插值系数用于指示所述文本描述信息和所述第一随机噪声向量之间的混合程度;基于所述插值系数,融合所述文本描述信息和所述第一随机噪声向量,得到所述条件输入向量。4.根据权利要求1所述的方法,其特征在于,基于所述第二用户输入数据和第二随机噪声向量来修正所选数字人形象,得到多个修正后的数字人形象,包括:对所述第二用户输入数据进行语义分析,并基于所述语义分析的结果确定约束条件,其中,所述第二用户输入数据包括文本数据或语音数据;基于所述约束条件和所述第二随机噪声向量,来修正所选数字人形象,得到所述多个修正后的数字人形象。5.根据权利要求4所述的方法,其特征在于,基于所述约束条件和所述第二随机噪声向量,来修正所选数字人形象,得到所述多个修正后的数字人形象,包括:基于所述约束条件,调整所选数字人形象的多个生成参数,其中,所述约束条件包括姿势和动作条件、外貌条件、服饰条件和情感条件;基于所述第二随机噪声向量,以小于预设阈值的步进,随机调整所述多个生成参数中的至少一个生成参数;基于随机调整后的所述多个生成参数,...

【专利技术属性】
技术研发人员:王新国
申请(专利权)人:世优北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1