一种人体图像生成模型及其构建方法、装置及应用制造方法及图纸

技术编号:37987908 阅读:22 留言:0更新日期:2023-06-30 10:02
本申请提出了一种人体图像生成模型及其构建方法、装置及应用,包括以下步骤:获取人体图像数据和与所述人体图像数据对应的人体文字数据;对人体图像数据和人体文字数据进行特征提取得到人体部位文字特征和人体部位图像特征;构建人体图像生成模型,使用向量投影模块对人体部位文字特征和人体部位图像特征进行投影得到第一投影部位图像特征和第二投影部位图像特征;使用矩阵填充模块对第一投影部位图像特征进行填充得到融合人体图像特征;基于扩散思想对所述融合人体图像特征进行优化;根据融合人体图像特征生成人体图像。本方案可以根据文字描述来生成人体图像,且生成人体图像中的人体部位规范、标准,人体整体特征和谐。人体整体特征和谐。人体整体特征和谐。

【技术实现步骤摘要】
一种人体图像生成模型及其构建方法、装置及应用


[0001]本申请涉及算法领域,特别是涉及一种人体图像生成模型及其构建方法、装置及应用。

技术介绍

[0002]扩散模型(Diffusion Models)是受非平衡热力学(Non

equilibrium thermodynamics)的启发,定义了一个扩散步骤的马尔科夫链(Markov chain)以缓慢地向数据添加随机噪声,然后学习逆转扩散过程(learn to reverse the diffusion process),并从噪声中构建所需的数据样本,与其他模型不同的是,扩散模型是以固定的程序学习的,其潜在的变量具有高维度(与原始数据相同)。
[0003]BERT(Bidirectional Encoder Representations from Transformers)是一个语言表示模型(language representation model),它的主要模型结构是transformer的encoder(编码器)堆叠而成,它其实是一个2阶段的框架,分别是pretraining(再训练)以及在各个具体任务上进行finetuning(微调),BERT具有两个特点:一个是该模型深度有12层,但是宽度只有1024,而常规的Transformer的深度有2048,在计算机图像处理的一个观点认为深而窄比浅而宽的模型更好,第二是BERT可以同时利用左侧和右侧的词语进行学习。
[0004]现有的生成人体的生成模型采用位置编码来做文字向量的投影,所以对于生成的人体肢体数量(如手指、手臂、腿等)不能很好的控制,经常出现多条手臂或多条腿的人体图片,且无法对生成图像的整体特征进行优化,所以亟需一种可以通过文字描述转换成合理且细节特征丰富的人体图像的方法。

技术实现思路

[0005]本申请实施例提供了一种人体图像生成模型及其构建方法、装置及应用,可以根据文字信息生成人体图像,且生成的人体图像准确、清晰,并通过扩散原理进行模型构建来对特征的整体进行优化,解决了生成的人体图像面部特征不和谐的问题。
[0006]第一方面,本申请实施例提供了一种人体图像生成模型的构建方法,所述方法包括:
[0007]获取至少一人体图像数据,对所述人体图像数据进行分割得到多个人体部位图像数据,根据所述人体图像数据获取对应的一段人体文字数据,所述人体文字数据中包含对应人体图像数据中的所有局部特征;
[0008]构建文字特征提取层和图像特征提取层,所述文字特征提取层将所述人体文字数据转换为多个人体部位文字特征,所述图像特征提取层将所述人体部位图像数据转换为人体部位图像特征,所述人体部位文字特征与所述人体部位图像特征一一对应;
[0009]构建人体图像生成模型,所述人体图像生成模型包括向量投影模块、矩阵填充模块、扩散模块、生成器,所述向量投影模块将所述人体部位文字特征投影到投影层得到第一投影部位图像特征,所述向量投影模块将所述人体部位图像特征投影到投影层得到第二投
影部位图像特征,计算每一所述第一投影部位图像特征与对应的第二投影部位图像特征之间的第一损失;
[0010]所述矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征;
[0011]所述扩散模块对所述人体图像数据基于扩散思想进行扩散得到第一扩散人体图像特征,计算所述第一扩散人体图像特征与所述融合人体图像特征之间的第二损失,所述扩散模块对所述融合人体图像特征基于扩散思想进行反扩散得到第二扩散人体图像特征,计算所述第二扩散人体图像特征与所述人体图像数据之间的第三损失;
[0012]当所述第一损失、第二损失、第三损失均满足设定条件完成模型构建得到训练好的人体图像生成模型,将所述融合人体图像特征输入到生成器中得到人体图像。
[0013]第二方面,本申请实施例提供了一种人体图像生成方法,包括:
[0014]获取人体文字数据,将所述人体文字数据通过文字特征提取层进行特征提取得到多个人体部位文字特征,将多个人体部位文字特征输入构建好的人体图像生成模型中,人体图像生成模型中的向量投影模块将每一人体部位文字特征转换为第一投影部位图像特征;
[0015]人体图像生成模型中的矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征;
[0016]人体图像生成模型中的扩散模模块对所述融合人体图像特征基于扩散思想进行优化得到优化融合人体图像特征;
[0017]将所述优化融合人体图像特征输入到人体图像生成模型的生成器中得到人体图像。
[0018]第三方面,本申请实施例提供了一种人体图像生成模型的构建装置,包括:
[0019]获取模块:获取至少一人体图像数据,对所述人体图像数据进行分割得到多个人体部位图像数据,根据所述人体图像数据获取对应的一段人体文字数据,所述人体文字数据中包含对应人体图像数据中的所有局部特征;
[0020]特征处理模块:构建文字特征提取层和图像特征提取层,所述文字特征提取层将所述人体文字数据转换为多个人体部位文字特征,所述图像特征提取层将所述人体部位图像数据转换为人体部位图像特征,所述人体部位文字特征与所述人体部位图像特征一一对应;
[0021]向量投影模块:构建人体图像生成模型,所述人体图像生成模型包括向量投影模块、矩阵填充模块、扩散模块、生成器,所述向量投影模块将所述人体部位文字特征投影到投影层得到第一投影部位图像特征,所述向量投影模块将所述人体部位图像特征投影到投影层得到第二投影部位图像特征,计算每一所述第一投影部位图像特征与对应的第二投影部位图像特征之间的第一损失;
[0022]填充模块:所述矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征;
[0023]扩散模块:所述扩散模块对所述人体图像数据基于扩散思想进行扩散得到第一扩散人体图像特征,计算所述第一扩散人体图像特征与所述融合人体图像特征之间的第二损失,所述扩散模块对所述融合人体图像特征基于扩散思想进行反扩散得到第二扩散人体图
像特征,计算所述第二扩散人体图像特征与所述人体图像数据之间的第三损失;
[0024]生成模块:当所述第一损失、第二损失、第三损失均满足设定条件完成模型构建得到训练好的人体图像生成模型,将所述融合人体图像特征输入到生成器中得到人体图像。
[0025]第四方面,本申请实施例提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种人体图像生成模型的构建方法或一种人体图像生成方法。
[0026]第五方面,本申请实施例提供了一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种人体图像生成模型的构建方法或一种人体图像生成方法。
[0027]本专利技术的主要贡献和创新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人体图像生成模型的构建方法,其特征在于,包括以下步骤:获取至少一人体图像数据,对所述人体图像数据进行分割得到多个人体部位图像数据,根据所述人体图像数据获取对应的一段人体文字数据,所述人体文字数据中包含对应人体图像数据中的所有局部特征;构建文字特征提取层和图像特征提取层,所述文字特征提取层将所述人体文字数据转换为多个人体部位文字特征,所述图像特征提取层将所述人体部位图像数据转换为人体部位图像特征,所述人体部位文字特征与所述人体部位图像特征一一对应;构建人体图像生成模型,所述人体图像生成模型包括向量投影模块、矩阵填充模块、扩散模块、生成器,所述向量投影模块将所述人体部位文字特征投影到投影层得到第一投影部位图像特征,所述向量投影模块将所述人体部位图像特征投影到投影层得到第二投影部位图像特征,计算每一所述第一投影部位图像特征与对应的第二投影部位图像特征之间的第一损失;所述矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征;所述扩散模块对所述人体图像数据基于扩散思想进行扩散得到第一扩散人体图像特征,计算所述第一扩散人体图像特征与所述融合人体图像特征之间的第二损失,所述扩散模块对所述融合人体图像特征基于扩散思想进行反扩散得到第二扩散人体图像特征,计算所述第二扩散人体图像特征与所述人体图像数据之间的第三损失;当所述第一损失、第二损失、第三损失均满足设定条件完成模型构建得到训练好的人体图像生成模型,将所述融合人体图像特征输入到生成器中得到人体图像。2.根据权利要求1所述的一种人体图像生成模型的构建方法,其特征在于,根据不同的肢体部位为所述人体图像数据和人体文字数据打上部位标签,根据所述部位标签来确定所述人体部位文字特征与所述人体部位图像特征之间的对应关系。3.根据权利要求1所述的一种人体图像生成模型的构建方法,其特征在于,在“计算每一所述第一投影部位图像特征与对应的第二投影部位图像特征之间的第一损失”步骤中,对每一所述第一投影部位图像特征与对应的第二投影部位图像特征进行单独计算损失,不计算其对应位置信息的损失。4.根据权利要求1所述的一种人体图像生成模型的构建方法,其特征在于,在“所述矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征”步骤中,根据每一所述第一投影部位图像特征所代表的人体部位来设定先后顺序,按照每一所述人体部位文字特征的先后顺序进行覆盖填充。5.根据权利要求1所述的一种人体图像生成模型的构建方法,其特征在于,在“所述扩散模块对所述人体图像数据基于扩散思想进行扩散得到第一扩散人体图像特征”步骤中,设置噪声,对所述噪声设置第一权重参数,基于所述噪声和第一权重参数对所述融合人体图像添加噪声得到第一扩散人体图像特征。6.根据权利要求5所述的一种人体图像生成模型的构建方法,其特征在于,在“所述扩散模块对所述融合人体图像特征基于扩散思想进行反扩散得到第二扩散人体图像特征”步骤中,添加反干扰函数,使用所述...

【专利技术属性】
技术研发人员:李圣权卓家雨王国梁韩致远张香伟
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1