当前位置: 首页 > 专利查询>罗伯特专利>正文

用于扩充视觉转换器的系统和方法技术方案

技术编号:37809419 阅读:13 留言:0更新日期:2023-06-09 09:39
提供了用于扩充视觉转换器的系统和方法。一种计算机实现的系统和方法向机器学习系统(诸如视觉转换器)提供改进的训练。该系统和方法包括至少使用内容图像、第一样式图像和第二样式图像来执行神经样式迁移扩充。至少基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。至少基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。用至少包括内容图像、第一扩充图像和第二扩充图像的训练数据来训练机器学习系统。为机器学习系统计算损失输出。损失输出至少包括一致性损失,该一致性损失计及由机器学习系统提供的关于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签。基于该损失更新机器学习系统的至少一个参数。的至少一个参数。的至少一个参数。

【技术实现步骤摘要】
用于扩充视觉转换器的系统和方法


[0001]本公开总体上涉及机器学习系统,并且更特别地,涉及利用神经样式迁移扩充和一致性损失来训练机器学习系统。

技术介绍

[0002]视觉转换器(ViT)最近已经跨各种计算机视觉任务表现相对良好。在ViT中,只有MLP层在局部操作并且是平移等变的,而自注意力层在全局操作。照此,对于图像数据,ViT被认为比传统的卷积神经网络(CNN)具有更弱的归纳偏差。然而,该特征使得ViT比CNN更难训练,至少因为在训练期间,ViT往往比类似大小的CNN需要更多的数据、扩充和/或正则化。用于训练ViT的数据扩充策略在很大程度上继承自训练CNN,尽管与CNN架构相比,ViT架构之间存在显著差异。

技术实现思路

[0003]以下是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这些特定实施例的简要概述,并且这些方面的描述不旨在限制本公开的范围。实际上,本公开可以涵盖下面可能没有明确阐述的多个方面。
[0004]根据至少一个方面,一种计算机实现的方法包括获得内容图像、第一样式图像和第二样式图像。该方法包括执行第一样式迁移,以将第一样式从第一样式图像迁移到内容图像,以生成第一样式化潜在表示。该方法包括执行第二样式迁移,以将第二样式从第二样式图像迁移到内容图像,以生成第二样式化潜在表示。该方法包括基于第一样式化潜在表示生成第一扩充图像。该方法包括基于第二样式化潜在表示生成第二扩充图像。该方法包括经由机器学习系统为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签。该方法包括计算机器学习系统的损失输出。损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失。该方法包括基于损失输出更新机器学习系统的至少一个参数。
[0005]根据至少一个方面,一种计算机实现的方法包括获得内容图像、第一样式图像和第二样式图像。该方法包括基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。该方法包括基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。该方法包括经由视觉转换器为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签。该方法包括计算视觉转换器的损失输出。损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失。该方法包括基于损失输出更新视觉转换器的至少一个参数。
[0006]根据至少一个方面,一个或多个非暂时性计算机可读存储介质具有包括存储在其上的指令的计算机可读数据,当由一个或多个处理器执行时,所述指令执行一种方法。该方法包括基于第一图像生成内容图像,基于第二图像生成第一样式图像,以及基于第三图像生成第二样式图像。该方法包括经由第一机器学习系统至少基于内容图像的内容和第一样
式图像的第一样式生成第一扩充图像。该方法包括经由第一机器学习系统至少基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。该方法包括用包括内容图像、第一扩充图像和第二扩充图像的训练数据来训练第二机器学习系统。该方法包括计算第二机器学习系统的损失输出。损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像的一致性损失。该方法包括基于损失输出更新机器学习系统的至少一个参数。
[0007]本专利技术的这些和其他特征、方面和优点根据附图在下面的详细描述中进行讨论,贯穿附图,相同的字符表示相似或相同的部分。
附图说明
[0008]图1是根据本公开的示例实施例的与扩充机器学习系统相关的系统的示例的图。
[0009]图2是图示了根据本公开的示例实施例的用于训练机器学习系统的过程的图。
[0010]图3是图示了根据本公开的示例实施例的样式扩充单元的图。
[0011]图4是图示了根据本公开的示例实施例的样式扩充器的图。
[0012]图5是图示了根据本公开的示例实施例的对包括扩充的训练数据使用交叉熵损失的参考示例的图。
[0013]图6是图示了根据本公开的示例实施例的对包括神经样式迁移扩充的训练数据使用交叉熵损失和一致性损失的组合的示例的图。
具体实施方式
[0014]通过前述描述,将理解已经通过示例的方式示出和描述的本文描述的实施例以及它们的许多优点,并且将清楚的是,在不脱离所公开的主题或者不牺牲其一个或多个优点的情况下,可以在组件的形式、构造和布置上进行各种改变。实际上,这些实施例的描述形式仅仅是解释性的。这些实施例容许各种修改和替代形式,并且以下权利要求旨在涵盖和包括这样的改变,并且不限于所公开的特定形式,而是覆盖落在本公开的精神和范围内的所有修改、等同物和替代物。
[0015]图1是根据本公开的示例实施例的系统100的非限制性示例的图,该系统100被配置为训练、采用和/或部署至少一个机器学习系统140,诸如视觉转换器。系统100至少包括具有至少一个处理设备的处理系统110。例如,处理系统110至少包括电子处理器、中央处理单元(CPU)、图形处理单元(GPU)、微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、任何合适的处理技术或其任何数量和组合。处理系统110可操作来提供如本文描述的功能性。
[0016]系统100包括存储器系统120,其操作性地连接到处理系统110。在示例实施例中,存储器系统120包括至少一个非暂时性计算机可读存储介质,其被配置为存储各种数据并提供对各种数据的访问,以使得至少处理系统110能够执行如本文所公开的操作和功能性。在示例实施例中,存储器系统120包括单个存储器设备或多个存储器设备。存储器系统120可以包括电、电子、磁、光、半导体、电磁或可与系统100一起操作的任何合适的存储技术。例如,在示例实施例中,存储器系统120可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、磁盘驱动器、存储卡、光存储设备、磁存储设备、存储器模块、任何合适类型的存储器设备或其任何数量和组合。关于处理系统110和/或系统100的其他组件,存储器系统
120是本地的、远程的或其组合(例如,部分本地和部分远程)。例如,存储器系统120可以至少包括基于云的存储系统(例如,基于云的数据库系统),其远离处理系统110和/或系统100的其他组件。
[0017]存储器系统120至少包括存储在其上的样式扩充程序130、机器学习系统140、训练数据150和其他相关数据160。样式扩充程序130包括具有指令的计算机可读数据,当由处理系统110执行时,该指令被配置为向至少一个机器学习系统140提供和实现具有样式迁移扩充和一致性损失的训练过程200。计算机可读数据可以包括指令、代码、例程、各种相关数据、任何软件技术或其任何数量和组合。在示例实施例中,机器学习系统140包括视觉转换器、任何合适的人工神经网络模型、或其任何数量和组合。此外,训练数据150包括足够量的传感器数据、标签数据、数据集数据(例如,图2的数据集210)、扩充数据(例如,内容图像、第一扩充图像、第二扩充图像等)、各种损失数据、各种权重数据和各种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练机器学习系统的计算机实现的方法,所述计算机实现的方法包括:获得内容图像;获得第一样式图像;获得第二样式图像;执行第一样式迁移,以将第一样式从第一样式图像迁移到内容图像,以生成第一样式化潜在表示;执行第二样式迁移,以将第二样式从第二样式图像迁移到内容图像,以生成第二样式化潜在表示;基于第一样式化潜在表示生成第一扩充图像;基于第二样式化潜在表示生成第二扩充图像;经由机器学习系统为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签;计算机器学习系统的损失输出,所述损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失;以及基于损失输出更新机器学习系统的至少一个参数。2.根据权利要求1所述的计算机实现的方法,其中,所述机器学习系统是视觉转换器。3.根据权利要求1所述的计算机实现的方法,其中,所述损失输出包括(a)基于内容图像的预测标签的交叉熵损失和(b)一致性损失的总和。4.根据权利要求1所述的计算机实现的方法,进一步包括:对内容图像编码以生成第一潜在表示;对第一样式图像编码以生成第二潜在表示;对第二样式图像编码以生成第三潜在表示;在第一潜在表示和第二潜在表示之间执行第一样式迁移,以将第一样式迁移到内容图像,从而生成内容图像的第一样式化潜在表示;在第一潜在表示和第三潜在表示之间执行第二样式迁移,以将第二样式迁移到内容图像,从而生成内容图像的第二样式化潜在表示;对第一样式化潜在表示解码,以生成包括以第一样式样式化的内容的第一样式迁移图像;以及对第二样式化潜在表示解码,以生成包括以第二样式样式化的内容的第二样式迁移图像。5.根据权利要求4所述的计算机实现的方法,其中:第一样式迁移包括关于第一潜在表示和第二潜在表示的自适应实例归一化;并且第二样式迁移包括关于第一潜在表示和第三潜在表示的自适应实例归一化。6.根据权利要求4所述的计算机实现的方法,进一步包括:组合以第一权重的内容图像和以第二权重的第一样式迁移图像,以生成第一扩充图像;以及组合以第一权重的内容图像和以第二权重的第二样式迁移图像,以生成第二扩充图像。7.根据权利要求1所述的计算机实现的方法,进一步包括:
通过对第一图像执行第一随机裁剪操作和第一修改来生成内容图像;通过对第二图像执行第二随机裁剪操作和第二修改来生成第一样式图像;以及通过对第三图像执行第三随机裁剪操作和第三修改来生成第二样式图像。8.一种用于训练视觉转换器的计算机实现的方法,所述方法包括:获得内容图像;获得第一样式图像;获得第二样式图像;基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像;基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像;经由视觉转换器为内容图像、第一扩充图像和第二扩充图像中的每一个生成预测标签;计算视觉转换器的损失输出,所述损失输出包括至少基于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签的一致性损失;以及基于损失输出更新视觉转换器的至少一个参数。9.根据权利要求8所述的计算机实现的方法,其中,所述损失输出包括(a)基于内容图像的预测标签的交叉熵损失和(b)一致性损失的总和。10.根据权利要求8所述的计算机实现的方法,进一步包括:将内容图像编码成第一潜在表示;将第一样式图像编码成第二潜在表示;将第二样式图像编码成第三潜在表示;在第一潜在表示和第二潜在表示之间执行第一样式迁移,以将第一样式迁移到内容图像,从而生成内容图像的第一样式化潜在表示;在第一...

【专利技术属性】
技术研发人员:A
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1