多模态融合生成虚拟服装方法、装置、设备及存储介质制造方法及图纸

技术编号:34081307 阅读:9 留言:0更新日期:2022-07-11 18:56
本申请公开了一种多模态融合生成虚拟服装方法、装置、设备及存储介质。本申请通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系,并根据该对应关系将服装的原图编码和文本编码进行融合,并根据融合后的编码优化特征编码本,以使特征编码本融合服装细节图像特征和对应描述文本特征,生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码,并通过多模态特征编码训练基于注意力机制的图像预测模型,以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段,关注虚拟服装的细节,优化虚拟服装的视觉效果。优化虚拟服装的视觉效果。优化虚拟服装的视觉效果。

【技术实现步骤摘要】
多模态融合生成虚拟服装方法、装置、设备及存储介质


[0001]本申请涉及虚拟服装生成
,尤其涉及一种多模态融合生成虚拟服装方法、装置、设备及存储介质。

技术介绍

[0002]在服装设计领域,跨模态服装设计方法基于注意力机制跨模态融合多种模态的服装信息生成对应的服装图片,进而快速设计出满足服装信息的虚拟服装,具备巨大的开发潜力与应用前景。
[0003]现有的跨模态服装设计方法,在第一阶段使用矢量量化变分自编码器通过将输入图像压缩成一个低分辨率离散特征映射,然后重构输入图像,学习真实图像中各个视觉部分的局部特征编码本。在第二阶段,将各种服装信息输入基于注意力机制的神经网络,预测合成图像的序列,从第一阶段的学习得到的特征编码本中采样得到序列值。基于注意力机制的神经网络的全局表现力将不同模态的服装信息统一表示,以在单个模型内处理任意类型的跨模态服装信息,并生成符合大多数情况下的合理结果。由于特征编码本中只编码了服装的局部视觉特征,而忽略了服装的文本信息,而文本信息可以提供更多的区别性特征,这导致模型了出现低级表示和粗糙语义,而忽略了服装的细节,生成的虚拟服装的视觉效果差。

技术实现思路

[0004]本申请提供一种多模态融合生成虚拟服装方法、装置、设备及存储介质,解决了现有技术中的注意力机制学习的特征编码本只编码了服装的图像特征而忽略了服装的文本信息的问题,开创性建立了服装细节图像和描述文本的对应关系,利用该对应关系构建出语义丰富且关注服装细节的特征编码本,利用该特征编码本获取关注服装细节的多模态特征编码,通过多模态特征编码预测出更加高清更有细节的虚拟图像,优化虚拟服装的视觉效果。
[0005]第一方面,本申请提供了一种多模态融合生成虚拟服装方法,包括:获取样本服装图像对应的语义分割图和样本文本序列,根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码,确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇;将所述样本服装图像输入预设的第一编码器,得到所述第一编码器输出的原图编码,根据所述语义块与对应的词汇,将所述原图编码与所述文本编码进行融合,并将融合的编码离散成多个一维编码;根据所述一维编码和预设的特征编码本中各个样本编码的距离值,优化所述一维编码和所述特征编码本,通过预设的解码器对优化后的一维编码进行解码得到复原图像,根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器;获取所述样本服装图像对应的样本草稿图像和样本局部图像,根据优化好的特征
编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码;将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型,得到所述注意力预测模型输出的预测编码,根据所述预测编码和所述原图编码优化所述注意力预测模型。
[0006]第二方面,本申请提供了一种多模态融合生成虚拟服装装置,包括:关系确定模块,被配置为获取样本服装图像对应的语义分割图和样本文本序列,根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码,确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇;编码融合模块,被配置为将所述样本服装图像输入预设的第一编码器,得到所述第一编码器输出的原图编码,根据所述语义块与对应的词汇,将所述原图编码与所述文本编码进行融合,并将融合的编码离散成多个一维编码;第一训练模块,被配置为根据所述一维编码和预设的特征编码本中各个样本编码的距离值,优化所述一维编码和所述特征编码本,通过预设的解码器对优化后的一维编码进行解码得到复原图像,根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器;编码转换模块,被配置为获取所述样本服装图像对应的样本草稿图像和样本局部图像,根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码;第二训练模块,被配置为将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型,得到所述注意力预测模型输出的预测编码,根据所述预测编码和所述原图编码优化所述注意力预测模型。
[0007]第三方面,本申请提供了一种多模态融合生成虚拟服装设备,包括:一个或多个处理器;存储装置,存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的多模态融合生成虚拟服装方法。
[0008]第四方面,本申请提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的多模态融合生成虚拟服装方法。
[0009]本申请通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系,并根据该对应关系将服装的原图编码和文本编码进行融合,并根据融合后的编码优化特征编码本,以使特征编码本融合服装细节图像特征和对应描述文本特征,生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码,并通过多模态特征编码训练基于注意力机制的图像预测模型,以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段,开创性建立了服装细节图像和描述文本的对应关系,利用该对应关系构建出语义丰富且关注服装细节的特征编码本,通过特征编码本转换草稿编码图、局部图编码和文本编码,可以得到关注虚拟服装细节的多模态特征编码,通过注意力预测模型可以融合多个细节的多模态特征编码进而预测出满足多个细节的虚拟服装,生成更加高清更有细节的虚拟服装,大大优化
了虚拟服装的视觉效果。
附图说明
[0010]图1是本申请实施例提供的一种多模态融合生成虚拟服装方法的流程图;图2是本申请实施例提供的样本数据的示意图;图3是本申请实施例提供的确定语义块和词汇对应关系的流程图;图4是本申请实施例提供的原图编码和文本编码跨模态融合的流程图;图5是本申请实施例提供的优化特征编码本的流程图;图6是本申请实施例提供的训练第一编码器和解码器的流程图;图7是本申请实施例提供的获取标准服装特征的流程图;图8是本申请实施例提供的训练注意力预测模型的流程图;图9是本申请实施例提供的生成虚拟服装的流程图;图10是本申请实施例提供的用于预测虚拟服装的数据的示意图;图11是本申请实施例提供的一种多模态融合生成虚拟服装装置的结构示意图;图12是本申请实施例提供的一种多模态融合生成虚拟服装设备的结构示意图。
具体实施方式
[0011]为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态融合生成虚拟服装方法,其特征在于,包括:获取样本服装图像对应的语义分割图和样本文本序列,根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码,确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇;将所述样本服装图像输入预设的第一编码器,得到所述第一编码器输出的原图编码,根据所述语义块与对应的词汇,将所述原图编码与所述文本编码进行融合,并将融合的编码离散成多个一维编码;根据所述一维编码和预设的特征编码本中各个样本编码的距离值,优化所述一维编码和所述特征编码本,通过预设的解码器对优化后的一维编码进行解码得到复原图像,根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器;获取所述样本服装图像对应的样本草稿图像和样本局部图像,根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码;将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型,得到所述注意力预测模型输出的预测编码,根据所述预测编码和所述原图编码优化所述注意力预测模型。2.根据权利要求1所述的多模态融合生成虚拟服装方法,其特征在于,所述根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码,确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇,包括:将所述语义分割图输入预先训练的第二编码器,得到所述第二编码器输出的语义图像编码,将所述样本文本序列输入预先训练的第三编码器,得到所述第三编码器输出的文本编码;将所述语义图像编码和所述文本编码输入预先训练的分数预测模型,通过所述分数预测模型确定所述语义图像编码中各个语义块的编码与所述文本编码中各个词汇的编码的相似度,根据所述相似度确定各个语义块与各个词汇之间的关系分数,根据所述关系分数确定所述语义块对应的词汇。3.根据权利要求1所述的多模态融合生成虚拟服装方法,其特征在于,所述根据所述语义块与对应的词汇,将所述原图编码与所述文本编码进行融合,并将融合的编码离散成多个一维编码,包括:根据所述语义块在所述语义分割图中的位置信息,将所述原图编码中对应位置信息处的编码与所述语义块对应词汇的编码进行加权求和,得到二维融合编码;将所述二维融合编码进行离散化,得到多个所述一维编码。4.根据权利要求1所述的多模态融合生成虚拟服装方法,其特征在于,所述根据所述一维编码和预设的特征编码本中各个样本编码的距离值,优化所述一维编码和所述特征编码本,包括:计算所述一维编码与各个所述样本编码之间的距离值,确定距离值最小的样本编码;根据所述距离值最小的样本编码,优化对应的一维编码,并将优化后的一维编码替换所述特征编码本中所述距离值最小的样本编码。5.根据权利要求1所述的多模态融合生成虚拟服装方法,其特征在于,所述根据所述复
原图像和所述样本服装图像优化所述解码器和所述第一编码器,包括:将所述样本服装图像和所述复原图像分别划分为多个第一图像块和多个第二图像块,将所述第一图像块和所述第二图像块输入预设的鉴别器中,得到所述鉴别器输出的数值;将各个数值进行结合得到对抗生成网络损失,根据所述对抗生成网络损失进行反向梯度传播,分步更新所述第一编码器、所述解码器和所述鉴别器的模型参数。6.根据权利要求1所述的多模态融合生成虚拟服装方法,其特征在于,所述根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码,包括:将所述样本草稿图像输入预先训练的第四编码器,得到所述第四编码器输出的草稿图编码,将所述样本局部图...

【专利技术属性】
技术研发人员:张绪杰黄成文梁小丹
申请(专利权)人:广东时谛智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1