一种人脸图像生成方法、系统及模型训练方法技术方案

技术编号：40342491 阅读：5 留言：0更新日期：2024-02-09 14:29

本发明专利技术公开的人脸图像生成方法、系统及模型训练方法，图像生成方法包括：获取给定的用于描述人脸特征的自然语言文本，利用文本编码器进行编码，得到粗粒度文本特征和细粒度文本特征，并映射到潜空间中；将提取到的粗粒度文本特征输入至多层扩散模型，多层扩散模型通过学习到的潜空间噪声概率分布，生成的低分辨率草图，过程中会产生图像特征，将所述细粒度特征与图像特征进行特征融合对齐并嵌入记忆网络中，形成记忆槽；将图像特征作为对记忆网络的询问，从记忆网络提取出低分辨率草图中缺失的细粒度特征，在生成草图的基础上恢复出高分辨率的人脸图像。本发明专利技术面向开放性文本，交互式生成人脸图像，不对输入文本的数量、描述风格做限制。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种人脸图像生成方法、系统及模型训练方法。

技术介绍

1、通过目击者表述的自然语言文本描述生成照片级逼真的人脸图像是一个重要的问题。

2、传统的对于模拟画像的手段可以分为两类，第一类是通过专业的模拟画像师依靠自身专业素质将目击者口述中的嫌疑人的体貌特征提取并完成人物肖像的侧写，但该方法耗费时间长，且对画师的专业素质和经验有着严苛的要求。

3、随着信息技术的发展，也出现了一些具备模拟画像功能的软件，这类软件通过引导目击者在人像部件库中选出最为相近的脸型、五官等元素，再将所选元素进行拼接组合，合成目击者认可的嫌疑人图像，但是单纯的将元素拼接使得该方法得到的人像不够真实，协调。

4、在人工智能技术的快速发展下，也出现了一些方法可以实现跨越文本模态到图像模态的生成模型，其中生成对抗网络(generative adversarial network，下文简称为gan)在文本生成真实图像方面取得了较好的效果，但是由于gan网络的结构特性，在模型训练过程中需要同时训练生成器和判别器两个网络，同时对两个网络的参数进行学习调整常常容易出现训练崩溃的情况，且gan模型在生成高清晰度的图像任务上往往表现不佳。

5、近年来，扩散模型(diffusion model)的提出使得文本生成图像领域迎来了新的研究热点，扩散模型相较于生成对抗网络在模型训练上更加容易，且模型在生成的图像的创造力和图像质量上往往表现更佳。然而，传统扩散模型由于其扩散过程遵循马尔科夫链，往往需要较大的采样

6、相较于鸟类、花卉等较为简单的图像类别，人脸图像往往蕴含的信息更为复杂且多变。通常，鸟类数据集的文本描述集中于描述鸟类的翅膀、羽毛、喙等关键信息，而花卉类数据集的文本描述主要涉及花瓣或花蕊的形状、数量、颜色等，而面部特征与面部描述之间的联系要薄弱许多。对于人的面部描述，往往会牵涉到年龄、性别、种族、发型和其他重要的面部装饰元素，因此现有的通用类文本到图像的生成方法往往在人脸图像的细节上表现不佳。

7、对于现有的人脸图像生成方面的工作，由于数据集支撑较弱，模型生成的图像多为欧美人种，无法复用于国内的嫌疑人模拟画像工作中，且存在对于描述文本的输入限制，失去了自然语言的灵活性，限制了用户的创造力和想象力。

技术实现思路

1、专利技术目的：本专利技术目的在于针对现有技术的不足，提供一种人脸图像生成方法、系统及模型训练方法，面向开放性文本，交互式生成人脸图像，不对输入文本的数量、描述风格做限制。

2、技术方案：本专利技术所述面像开放性文本的交互式人脸图像生成方法，包括如下步骤：

3、步骤1：获取给定的用于描述人脸特征的自然语言文本，利用文本编码器进行编码，得到粗粒度文本特征s和细粒度文本特征w，并映射到潜空间中；

4、步骤2：在潜空间中，由多层扩散模型将文本特征对应的人脸图像生成出来，包括第一阶段、第二阶段，

5、第一阶段中，将提取到的粗粒度文本特征s输入至多层扩散模型，多层扩散模型通过学习到的潜空间噪声概率分布，生成的低分辨率草图，过程中会产生图像特征，将所述细粒度特征w与图像特征进行特征融合对齐并嵌入记忆网络中，形成记忆槽；

6、第二阶段中，将图像特征作为对记忆网络的询问，从记忆网络提取出低分辨率草图缺失的细粒度特征，在第一阶段生成草图的基础上，通过潜空间解码恢复出高分辨率的人脸图像。

7、进一步地，若对第一阶段生成的低分辨率草图不满意，能够进行交互式修改，所述交互式修改包括获取用户反馈的修改文本，将修改文本转化为若干个对应位置的修改提示词，采用修改提示词替换对应位置的原文本特征，并形成若干个注意力图的权重，用于确定需要修正的部分人脸图像，并行使用多头注意力机制，将若干个注意力图连接起来，生成经过用户交互式修正的最终人脸图像。

8、进一步地，针对获取的自然语言文本，通过分词技术得到长度为d的词序列p＝(w1,w2,…,wd)，每个单词wi采用预训练的词向量进行表示，i＝1～d；将词序列作为roberta模型的输入，通过roberta模型充分挖掘文本中的上下文依赖关系，得到基于上下文语义的文本特征，并使用整段掩码代替单一token的掩码帮助roberta模型进行推断训练。

9、进一步地，所述第一阶段中通过学习到的噪声概率分布z，生成一个低分辨率草图p0，在生成过程中会产生图像特征r0，采用公式r0＝g0(z,s)表示；将低分辨率草图p0在第二阶段中逐步填充细节纹理，采用公式rk＝gk(rk-1,w)表示，其中，rk-1指上一阶段生成器生成的图像特征，图像的细化过程至少进行3次，以获得高分辨图像。

10、进一步地，所述记忆网络通过键值记忆之间的转换，融合文本语义和图像特征来细化图像细节，包括记忆写入、键寻址、值读取、响应；所述记忆写入通过对先验知识进行编码，从文本中恢复出质量更高的人脸图像，采用公式mi＝m(wi)表示，其中，m(·)表示1×1的卷积运算；所述键寻址使用键存储寻找相关的记忆，每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出，是一个通过1×1卷积实现将键存储特征映射到对应维数的过程；所述值读取输出记忆表示由值记忆根据相似概率加权求和后得到，其中，是一个通过1×1卷积实现的将值记忆映射到相应维数的过程；所述响应是指在收到前面的输出记忆后，将当前人脸图像结合输出记忆得到新的人脸图像特征，此功能通过连接操作实现然后通过上采样和残差块将得到的图像特征升级为具有高分辨率的人脸图像，再通过卷积得到细化后的高分辨率的人脸图像。

11、用于实现所述面像开放性文本的交互式人脸图像生成方法的系统，包括：

12、中国人脸-描述文本对数据集，通过网络抽取人脸图像，使用图像描述生成模型结合人工筛查为人脸图像生成描述，再通过文本风格迁移增加描述风格变化，以形成所述中国人脸-描述文本对数据集；

13、跨模态多粒度特征提取融合模块，针对描述文本充分挖掘文本中的上下文依赖关系，得到基于上下文语义的文本特征，并使用整段掩码代替单一token的掩码帮助模型进行推断训练，同时应用预训练的resnet模型将人脸图像映射为高维向量，将描述文本与人脸图像的配对关系作为指导，训练得到描述文本、人脸图像特征融合表示；

14、融合动态记忆网络的多层人脸生成模块，根据描述文本、人脸图像特征融合表示，在多阶段人脸生成模型的第一阶段通过提取到的粗粒度特征生成体现对应目标人脸特征的低分辨率草图，同时，将描述文本中提取到的多粒度特征与图像特征进行特征融合对齐并嵌入记忆网络中，形成记忆槽；在第二阶段，将图像特征作为对记忆网络的询问，从记忆网络提取出草图中缺失的细粒度特征，在第一阶段生成草图的基础上，修正草图错误，改善图像质量并提高图像分辨率。

15、用于图像生成的模型训练方法，包括如下步骤：...

【技术保护点】

1.一种面像开放性文本的交互式人脸图像生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面像开放性文本的交互式人脸图像生成方法，其特征在于：若对第一阶段生成的低分辨率草图不满意，能够进行交互式修改，所述交互式修改包括获取用户反馈的修改文本，将修改文本转化为若干个对应位置的修改提示词，采用修改提示词替换对应位置的原文本特征，并形成若干个注意力图的权重，用于确定需要修正的部分人脸图像，并行使用多头注意力机制，将若干个注意力图连接起来，生成经过用户交互式修正的最终人脸图像。

3.根据权利要求1所述的面像开放性文本的交互式人脸图像生成方法，其特征在于：针对获取的自然语言文本，通过分词技术得到长度为d的词序列p(w1,w2,…,wd)，每个单词wi采用预训练的词向量进行表示，i＝1～d；将词序列作为RoBERTa模型的输入，通过RoBERTa模型充分挖掘文本中的上下文依赖关系，得到基于上下文语义的文本特征，并使用整段掩码代替单一token的掩码帮助RoBERTa模型进行推断训练。

4.根据权利要求3所述的面像开放性文本的交互式人脸图像生成方法

5.根据权利要求4所述的面像开放性文本的交互式人脸图像生成方法，其特征在于：所述记忆网络通过键值记忆之间的转换，融合文本语义和图像特征来细化图像细节，包括记忆写入、键寻址、值读取、响应；所述记忆写入通过对先验知识进行编码，从文本中恢复出质量更高的人脸图像，采用公式mi＝M(wi)表示，其中，M(·)表示1×1的卷积运算；所述键寻址使用键存储寻找相关的记忆，每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出，是一个通过1×1卷积实现将键存储特征映射到对应维数的过程；所述值读取输出记忆表示由值记忆根据相似概率加权求和后得到，其中，是一个通过1×1卷积实现的将值记忆映射到相应维数的过程；所述响应是指在收到前面的输出记忆后，将当前人脸图像结合输出记忆得到新的人脸图像特征，此功能通过连接操作实现然后通过上采样和残差块将得到的图像特征升级为具有高分辨率的人脸图像，再通过卷积得到细化后的高分辨率的人脸图像。

6.用于实现权利要求1所述方法的系统，其特征在于，包括：

7.一种用于图像生成的模型训练方法，其特征在于，包括如下步骤：

8.根据权利要求7所述的模型训练方法，其特征在于，所述步骤4中多层扩散模型的训练过程为：

9.根据权利要求7所述的模型训练方法，其特征在于：所述训练过程中记忆网络通过键值记忆之间的转换，融合文本语义和图像特征来细化图像细节，共包含以下4个部分：记忆写入、键寻址、值读取、响应；首先是记忆写入，它的作用是对先验知识进行编码，从文本中恢复出质量更高的人脸图像，如公式mi＝M(wi)所示，其中，M(·)表示1×1的卷积运算；其次是键寻址，使用键存储寻找相关的记忆，每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出，是一个通过1×1卷积实现的将键存储特征映射到对应维数的过程；接着是值读取，输出记忆表示由值记忆根据相似概率加权求和后得到，其中同样是一个通过1×1卷积实现的将值记忆映射到相应维数的过程；最后是响应，在收到前面的输出记忆后，将当前人脸图像结合输出表示得到新的人脸图像特征，此功能通过连接操作实现

10.根据权利要求7所述的模型训练方法，其特征在于：所述多层扩散模型的文本嵌入层来执行语义操作以进行交互式修改，将修改文本转化为若干个对应位置的修改提示词，采用修改提示词替换对应位置的原文本特征，包括如下处理过程：在记忆网络中，多层扩散模型的噪声图像的深度空间特征表示为公式而修改文本嵌入到记忆网络中的特征矩阵表示为公式注意力图的权重M表示为其中：d表示在记忆网络中潜空间所处于的维度，权重M的大小与Q和K之间的相似性相关；并行使用多头注意力机制，将若干个注意力图连接起来，生成经过用户交互式修正的最终人脸图像。

...

【技术特征摘要】

1.一种面像开放性文本的交互式人脸图像生成方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的面像开放性文本的交互式人脸图像生成方法，其特征在于：针对获取的自然语言文本，通过分词技术得到长度为d的词序列p(w1,w2,…,wd)，每个单词wi采用预训练的词向量进行表示，i＝1～d；将词序列作为roberta模型的输入，通过roberta模型充分挖掘文本中的上下文依赖关系，得到基于上下文语义的文本特征，并使用整段掩码代替单一token的掩码帮助roberta模型进行推断训练。

4.根据权利要求3所述的面像开放性文本的交互式人脸图像生成方法，其特征在于：所述第一阶段中通过学习到的噪声概率分布z，生成一个低分辨率草图p0，在生成过程中会产生图像特征r0，采用公式r0＝g0(z,s)表示；将低分辨率草图p0在第二阶段中逐步填充细节纹理，采用公式rk＝gk(rk-1,w)表示，其中，rk-1指上一阶段生成器生成的图像特征，图像的细化过程至少进行3次，以获得高分辨图像。

5.根据权利要求4所述的面像开放性文本的交互式人脸图像生成方法，其特征在于：所述记忆网络通过键值记忆之间的转换，融合文本语义和图像特征来细化图像细节，包括记忆写入、键寻址、值读取、响应；所述记忆写入通过对先验知识进行编码，从文本中恢复出质量更高的人脸图像，采用公式mi＝m(wi)表示，其中，m(·)表示1×1的卷积运算；所述键寻址使用键存储寻找相关的记忆，每个记忆槽的权重为通过计算记忆槽mi和图像特征rj之间的相似概率得出，是一个通过1×1卷积实现将键存储特征映射到对应维数的过程；所述值读取输出记忆...

【专利技术属性】
技术研发人员：宋天逸，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人