多模态融合生成虚拟服装方法、装置、设备及存储介质制造方法及图纸

技术编号：34081307 阅读：9 留言：0更新日期：2022-07-11 18:56

本申请公开了一种多模态融合生成虚拟服装方法、装置、设备及存储介质。本申请通过确定样本服装图像的各个语义块与样本文本序列的各个词汇的对应关系，并根据该对应关系将服装的原图编码和文本编码进行融合，并根据融合后的编码优化特征编码本，以使特征编码本融合服装细节图像特征和对应描述文本特征，生成多模态特征编码。通过特征编码本获取草稿编码图、局部图编码和文本编码转换成对应的多模态特征编码，并通过多模态特征编码训练基于注意力机制的图像预测模型，以便通过注意力预测模型将多个多模态特征编码进行融合以预测服装的图像。通过上述技术手段，关注虚拟服装的细节，优化虚拟服装的视觉效果。优化虚拟服装的视觉效果。优化虚拟服装的视觉效果。

全部详细技术资料下载

【技术实现步骤摘要】
多模态融合生成虚拟服装方法、装置、设备及存储介质

[0001]本申请涉及虚拟服装生成
，尤其涉及一种多模态融合生成虚拟服装方法、装置、设备及存储介质。

技术介绍

[0002]在服装设计领域，跨模态服装设计方法基于注意力机制跨模态融合多种模态的服装信息生成对应的服装图片，进而快速设计出满足服装信息的虚拟服装，具备巨大的开发潜力与应用前景。
[0003]现有的跨模态服装设计方法，在第一阶段使用矢量量化变分自编码器通过将输入图像压缩成一个低分辨率离散特征映射，然后重构输入图像，学习真实图像中各个视觉部分的局部特征编码本。在第二阶段，将各种服装信息输入基于注意力机制的神经网络，预测合成图像的序列，从第一阶段的学习得到的特征编码本中采样得到序列值。基于注意力机制的神经网络的全局表现力将不同模态的服装信息统一表示，以在单个模型内处理任意类型的跨模态服装信息，并生成符合大多数情况下的合理结果。由于特征编码本中只编码了服装的局部视觉特征，而忽略了服装的文本信息，而文本信息可以提供更多的区别性特征，这导致模型了出现低级表示和粗糙语义，而忽略了服装的细节，生成的虚拟服装的视觉效果差。

技术实现思路

[0004]本申请提供一种多模态融合生成虚拟服装方法、装置、设备及存储介质，解决了现有技术中的注意力机制学习的特征编码本只编码了服装的图像特征而忽略了服装的文本信息的问题，开创性建立了服装细节图像和描述文本的对应关系，利用该对应关系构建出语义丰富且关注服装细节的特征编码本，利用该特征编码本获取关注服装细节的多模态...

【技术保护点】

【技术特征摘要】
1.一种多模态融合生成虚拟服装方法，其特征在于，包括：获取样本服装图像对应的语义分割图和样本文本序列，根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码，确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇；将所述样本服装图像输入预设的第一编码器，得到所述第一编码器输出的原图编码，根据所述语义块与对应的词汇，将所述原图编码与所述文本编码进行融合，并将融合的编码离散成多个一维编码；根据所述一维编码和预设的特征编码本中各个样本编码的距离值，优化所述一维编码和所述特征编码本，通过预设的解码器对优化后的一维编码进行解码得到复原图像，根据所述复原图像和所述样本服装图像优化所述解码器和所述第一编码器；获取所述样本服装图像对应的样本草稿图像和样本局部图像，根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码；将所述第一样本编码、所述第二样本编码和所述第三样本编码输入预设的注意力预测模型，得到所述注意力预测模型输出的预测编码，根据所述预测编码和所述原图编码优化所述注意力预测模型。2.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述语义分割图的语义图像编码和所述样本文本序列的文本编码，确定所述语义分割图中各个语义块对应的所述样本文本序列中的词汇，包括：将所述语义分割图输入预先训练的第二编码器，得到所述第二编码器输出的语义图像编码，将所述样本文本序列输入预先训练的第三编码器，得到所述第三编码器输出的文本编码；将所述语义图像编码和所述文本编码输入预先训练的分数预测模型，通过所述分数预测模型确定所述语义图像编码中各个语义块的编码与所述文本编码中各个词汇的编码的相似度，根据所述相似度确定各个语义块与各个词汇之间的关系分数，根据所述关系分数确定所述语义块对应的词汇。3.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述语义块与对应的词汇，将所述原图编码与所述文本编码进行融合，并将融合的编码离散成多个一维编码，包括：根据所述语义块在所述语义分割图中的位置信息，将所述原图编码中对应位置信息处的编码与所述语义块对应词汇的编码进行加权求和，得到二维融合编码；将所述二维融合编码进行离散化，得到多个所述一维编码。4.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述一维编码和预设的特征编码本中各个样本编码的距离值，优化所述一维编码和所述特征编码本，包括：计算所述一维编码与各个所述样本编码之间的距离值，确定距离值最小的样本编码；根据所述距离值最小的样本编码，优化对应的一维编码，并将优化后的一维编码替换所述特征编码本中所述距离值最小的样本编码。5.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据所述复
原图像和所述样本服装图像优化所述解码器和所述第一编码器，包括：将所述样本服装图像和所述复原图像分别划分为多个第一图像块和多个第二图像块，将所述第一图像块和所述第二图像块输入预设的鉴别器中，得到所述鉴别器输出的数值；将各个数值进行结合得到对抗生成网络损失，根据所述对抗生成网络损失进行反向梯度传播，分步更新所述第一编码器、所述解码器和所述鉴别器的模型参数。6.根据权利要求1所述的多模态融合生成虚拟服装方法，其特征在于，所述根据优化好的特征编码本将所述样本草稿图像的草稿图编码、所述样本局部图像的局部图编码和所述文本编码分别转换为第一样本编码、第二样本编码和第三样本编码，包括：将所述样本草稿图像输入预先训练的第四编码器，得到所述第四编码器输出的草稿图编码，将所述样本局部图...

【专利技术属性】
技术研发人员：张绪杰，黄成文，梁小丹，
申请(专利权)人：广东时谛智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人