训练年龄变化图像生成模型的方法及相关装置制造方法及图纸

技术编号：40437897 阅读：5 留言：0更新日期：2024-02-22 23:01

本申请实施例涉及图像生成技术领域，公开了一种训练年龄变化图像生成模型的方法及相关装置，通过获取若干个人脸图像，每个人脸图像标注有真实年龄；采用这若干个人脸图像，对预先构建的扩散模型进行迭代训练直至收敛，得到年龄变化图像生成模型。在此实施例中，以扩散模型作为年龄变化图像生成模型的模型结构，利用扩散模型逐步引入噪声和逐步去噪生成图像的机理，学习年龄特征，使得生成的图像逼近真实数据分布，从而，年龄变化图像生成模型能够生成符合实际的、高分辨率的年龄变化图像，具有贴近真实的模拟年龄变化效果，从而，能够更加准确地预测衰老图像或溯源年龄图像。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及图像生成，尤其涉及一种训练年龄变化图像生成模型的方法及相关装置。

技术介绍

1、随着机器学习技术不断成熟,基于机器学习技术的服务的种类也越来越多。例如计算机设备通过机器学习技术,能够对人脸图像进行处理,得到年龄变化图像。其中,人脸图像中的人脸对应的第一年龄和年龄变化图像中的人脸对应的第二年龄不同,但对应相同身份。上述服务在多个场景中被广泛需求，例如，在公安刑事侦破时，根据走失儿童的现有照片，推测其几年后的样貌，以便寻找；或者，根据嫌疑人年轻时的旧照片预测其逃亡多年后的照片；再例如，在影视业制作的过程中，当演员扮演年老角色时，根据演员现在的样貌推测其衰老后的样貌，方便化妆师画出年老角色形象；再例如，在休闲娱乐时，人们想通过当前的图像溯源自己小时候的照片。

2、计算机设备通常根据输入的人脸图像和预期年龄,采用机器学习模型对该人脸图像进行处理,得到年龄变化图像，使得年龄变化图像反映的人物的年龄与预期年龄相适应。该机器学习模型是基于不同年龄的不同人脸图像训练得到的。本申请专利技术人所知晓的一些用于生成年龄变化图像的机器学习模型大多是采用对抗生成网络(gan)训练得到的。然而，对抗生成网络的不稳定性，以及生成能力的不足限制了其在此领域的进一步的发展。

技术实现思路

1、有鉴于此，本申请一些实施例提供了一种训练年龄变化图像生成模型的方法及相关装置，采用该方法训练得到的年龄变化图像生成模型利用扩散模型逐步引入噪声和逐步去噪改善图像的机理，学习年龄特征，使生成的图像逼近

2、第一方面，本申请一些实施例提供了一种训练年龄变化图像生成模型的方法，包括：

3、获取若干个人脸图像，人脸图像标注有真实年龄；

4、采用若干个人脸图像，对预先构建的扩散模型进行迭代训练直至收敛，得到年龄变化图像生成模型。

5、在一些实施例中，扩散模型包括加噪模块和去噪模块，加噪模块用于对输入的人脸图像逐步添加噪声后输出人脸噪声图像，去噪模块用于对人脸噪声图像逐步去除噪声后输出预测年龄变化图像；

6、去噪模块在去除噪声的过程中产生的特征图融合有人脸图像中的人脸特征，以使去噪模块学习人脸特征。

7、在一些实施例中，人脸图像对应有人脸描述文本，人脸描述文本包括真实年龄；

8、方法还包括：

9、将人脸图像和人脸描述文本进行特征融合，得到融合特征；

10、将融合特征分别输入去噪模块中多个级联的噪声预测网络，融合特征分别与各个噪声预测网络所产生的特征图进行融合，以使噪声预测网络学习人脸特征；

11、其中，噪声预测网络用于输出预测噪声，输入第t个噪声预测网络的人脸噪声图像减去第t个噪声预测网络输出的预测噪声得到第i个噪声预测网络对应的人脸噪声图像，第t个噪声预测网络对应的人脸噪声图像作为第t-1个噪声预测网络的输入，将最后一个噪声预测网络对应的人脸噪声图像作为预测年龄变化图像。

12、在一些实施例中，将人脸图像和人脸描述文本进行特征融合，得到融合特征，包括：

13、采用预先训练好的3dmm模型对人脸图像中的人脸进行三维重构，获取人脸三维重构参数；

14、将人脸三维重构参数输入可微分渲染器中，生成渲染图像；

15、将渲染图像和人脸描述文本进行特征融合，得到融合特征。

16、在一些实施例中，将渲染图像和人脸描述文本进行特征融合，得到融合特征，包括：

17、将渲染图像和人脸描述文本输入clip模型，clip模型中的图像编码器对渲染图像进行编码处理，得到图像向量，clip模型中的文本编码器对人脸描述文本进行编码处理，得到文本向量；

18、将图像向量和文本向量通过mlp网络映射至联合多模态空间，得到融合特征。

19、在一些实施例中，融合特征与噪声预测网络所产生的特征图进行融合，包括：

20、输入噪声预测网络的人脸噪声图像先经下采样特征提取，下采样过程中分辨率最小的下采样特征图与融合特征采用注意力机制进行融合；

21、融合得到的特征图经上采样特征提取，得到预测噪声；在上采样过程中，同层级的上采样特征图与下采样特征图进行融合处理。

22、在一些实施例中，训练过程中所配置的损失函数包括噪声损失和人脸身份损失，其中，噪声损失用于计算加噪模块增加的随机噪声和去噪模块输出的预测噪声之间的l2范数损失，人脸身份损失用于计算人脸图像和预测年龄变化图像之间的差异。

23、第二方面，本申请一些实施例提供了一种生成年龄变化图像的方法，包括：

24、获取测试图像和预期年龄；

25、将测试图像和预期年龄输入年龄变化图像生成模型，得到符合预期年龄的年龄变化图像；其中，年龄变化图像是采用第一方面中训练年龄变化图像生成模型的方法训练得到。

26、第三方面，本申请一些实施例提供了一种电子设备，包括：

27、至少一个处理器，以及

28、与至少一个处理器通信连接的存储器，其中，

29、存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的方法。

30、第四方面，本申请一些实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机设备执行第一方面中的方法。

31、本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的训练年龄变化图像生成模型的方法及相关装置，通过获取若干个人脸图像，每个人脸图像标注有真实年龄；采用这若干个人脸图像，对预先构建的扩散模型进行迭代训练直至收敛，得到年龄变化图像生成模型。在此实施例中，以扩散模型作为年龄变化图像生成模型的模型结构，利用扩散模型逐步引入噪声和逐步去噪生成图像的机理，学习年龄特征，使得生成的图像逼近真实数据分布，从而，年龄变化图像生成模型能够生成符合实际的、高分辨率的年龄变化图像，具有贴近真实的模拟年龄变化效果，从而，能够更加准确地预测衰老图像或溯源年龄图像。

本文档来自技高网...

【技术保护点】

1.一种训练年龄变化图像生成模型的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述扩散模型包括加噪模块和去噪模块，所述加噪模块用于对输入的人脸图像逐步添加噪声后输出人脸噪声图像，所述去噪模块用于对所述人脸噪声图像逐步去除噪声后输出预测年龄变化图像；

3.根据权利要求2所述的方法，其特征在于，所述人脸图像对应有人脸描述文本，所述人脸描述文本包括所述真实年龄；

4.根据权利要求3所述的方法，其特征在于，所述将所述人脸图像和所述人脸描述文本进行特征融合，得到融合特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述渲染图像和所述人脸描述文本进行特征融合，得到所述融合特征，包括：

6.根据权利要求3所述的方法，其特征在于，所述融合特征与所述噪声预测网络所产生的特征图进行融合，包括：

7.根据权利要求1所述的方法，其特征在于，训练过程中所配置的损失函数包括噪声损失和人脸身份损失，其中，所述噪声损失用于计算所述加噪模块增加的随机噪声和所述去噪模块输出的预测噪声之间的L2范数损失，所述人

8.一种生成年龄变化图像的方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行如权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种训练年龄变化图像生成模型的方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述人脸图像对应有人脸描述文本，所述人脸描述文本包括所述真实年龄；

4.根据权利要求3所述的方法，其特征在于，所述将所述人脸图像和所述人脸描述文本进行特征融合，得到融合特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述渲染图像和所述人脸描述文本进行特征融合，得到所述融合特征，包括：

<...

【专利技术属性】
技术研发人员：陈仿雄，
申请(专利权)人：深圳数联天下智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人