用于扩充视觉转换器的系统和方法技术方案

技术编号：37809419 阅读：13 留言：0更新日期：2023-06-09 09:39

提供了用于扩充视觉转换器的系统和方法。一种计算机实现的系统和方法向机器学习系统（诸如视觉转换器）提供改进的训练。该系统和方法包括至少使用内容图像、第一样式图像和第二样式图像来执行神经样式迁移扩充。至少基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。至少基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。用至少包括内容图像、第一扩充图像和第二扩充图像的训练数据来训练机器学习系统。为机器学习系统计算损失输出。损失输出至少包括一致性损失，该一致性损失计及由机器学习系统提供的关于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签。基于该损失更新机器学习系统的至少一个参数。的至少一个参数。的至少一个参数。

全部详细技术资料下载

【技术实现步骤摘要】
用于扩充视觉转换器的系统和方法

[0001]本公开总体上涉及机器学习系统，并且更特别地，涉及利用神经样式迁移扩充和一致性损失来训练机器学习系统。

技术介绍

[0002]视觉转换器（ViT）最近已经跨各种计算机视觉任务表现相对良好。在ViT中，只有MLP层在局部操作并且是平移等变的，而自注意力层在全局操作。照此，对于图像数据，ViT被认为比传统的卷积神经网络（CNN）具有更弱的归纳偏差。然而，该特征使得ViT比CNN更难训练，至少因为在训练期间，ViT往往比类似大小的CNN需要更多的数据、扩充和/或正则化。用于训练ViT的数据扩充策略在很大程度上继承自训练CNN，尽管与CNN架构相比，ViT架构之间存在显著差异。

技术实现思路

[0003]以下是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述，并且这些方面的描述不旨在限制本公开的范围。实际上，本公开可以涵盖下面可能没有明确阐述的多个方面。
[0004]根据至少一个方面，一种计算机实现的方法包括获得内容图像、第一样式图像和第二样式图像。该方法包括执行第一样式迁移，以将第一样式从第一样式图像迁移到内容图像，以生成第一样式化潜在表示。该方法包括执行第二样式迁移，以将第二样式从第二样式图像迁移到内容图像，以生成第二样式化潜在表示。该方法包括基于第一样式化潜在表示生成第一扩充图像。该方法包括基于第二样式化潜在表示生成第二扩充图像。该方法包括经由机器学习系统为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测...

【技术保护点】

【技术特征摘要】
1.一种用于训练机器学习系统的计算机实现的方法，所述计算机实现的方法包括：获得内容图像；获得第一样式图像；获得第二样式图像；执行第一样式迁移，以将第一样式从第一样式图像迁移到内容图像，以生成第一样式化潜在表示；执行第二样式迁移，以将第二样式从第二样式图像迁移到内容图像，以生成第二样式化潜在表示；基于第一样式化潜在表示生成第一扩充图像；基于第二样式化潜在表示生成第二扩充图像；经由机器学习系统为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签；计算机器学习系统的损失输出，所述损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失；以及基于损失输出更新机器学习系统的至少一个参数。2.根据权利要求1所述的计算机实现的方法，其中，所述机器学习系统是视觉转换器。3.根据权利要求1所述的计算机实现的方法，其中，所述损失输出包括（a）基于内容图像的预测标签的交叉熵损失和（b）一致性损失的总和。4.根据权利要求1所述的计算机实现的方法，进一步包括：对内容图像编码以生成第一潜在表示；对第一样式图像编码以生成第二潜在表示；对第二样式图像编码以生成第三潜在表示；在第一潜在表示和第二潜在表示之间执行第一样式迁移，以将第一样式迁移到内容图像，从而生成内容图像的第一样式化潜在表示；在第一潜在表示和第三潜在表示之间执行第二样式迁移，以将第二样式迁移到内容图像，从而生成内容图像的第二样式化潜在表示；对第一样式化潜在表示解码，以生成包括以第一样式样式化的内容的第一样式迁移图像；以及对第二样式化潜在表示解码，以生成包括以第二样式样式化的内容的第二样式迁移图像。5.根据权利要求4所述的计算机实现的方法，其中：第一样式迁移包括关于第一潜在表示和第二潜在表示的自适应实例归一化；并且第二样式迁移包括关于第一潜在表示和第三潜在表示的自适应实例归一化。6.根据权利要求4所述的计算机实现的方法，进一步包括：组合以第一权重的内容图像和以第二权重的第一样式迁移图像，以生成第一扩充图像；以及组合以第一权重的内容图像和以第二权重的第二样式迁移图像，以生成第二扩充图像。7.根据权利要求1所述的计算机实现的方法，进一步包括：
通过对第一图像执行第一随机裁剪操作和第一修改来生成内容图像；通过对第二图像执行第二随机裁剪操作和第二修改来生成第一样式图像；以及通过对第三图像执行第三随机裁剪操作和第三修改来生成第二样式图像。8.一种用于训练视觉转换器的计算机实现的方法，所述方法包括：获得内容图像；获得第一样式图像；获得第二样式图像；基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像；基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像；经由视觉转换器为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签；计算视觉转换器的损失输出，所述损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失；以及基于损失输出更新视觉转换器的至少一个参数。9.根据权利要求8所述的计算机实现的方法，其中，所述损失输出包括（a）基于内容图像的预测标签的交叉熵损失和（b）一致性损失的总和。10.根据权利要求8所述的计算机实现的方法，进一步包括：将内容图像编码成第一潜在表示；将第一样式图像编码成第二潜在表示；将第二样式图像编码成第三潜在表示；在第一潜在表示和第二潜在表示之间执行第一样式迁移，以将第一样式迁移到内容图像，从而生成内容图像的第一样式化潜在表示；在第一...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人