利用多个正例的监督对比学习制造技术

技术编号:34367234 阅读:12 留言:0更新日期:2022-07-31 09:23
本公开提供了一种改进的训练方法,其使得监督对比学习能够跨多个正训练例和负训练例同时执行。特别地,本公开的示例方面针对批量对比损失的改进的监督版本,其已经被显示对于在自监督设置中学习强大的表示非常有效。因此,所提出的技术使对比学习适应于完全监督的设置,并且还使得学习能够跨多个正例同时发生。生。生。

Supervised comparative learning using multiple positive examples

【技术实现步骤摘要】
【国外来华专利技术】利用多个正例的监督对比学习
[0001]相关申请的交叉引用
[0002]本申请要求2020年4月21日提交的美国临时专利申请号63/013,153的优先权和权益。美国临时专利申请号63/013,153通过引用整体结合于此。


[0003]本公开总体上涉及用于视觉表示的对比学习的系统和方法。更具体地,本公开涉及跨多个正例执行监督对比学习的系统和方法。

技术介绍

[0004]交叉熵损失可能是监督学习中最广泛使用的损失函数。它被自然地定义为两个离散分布之间的KL

散度:logits的经验标签分布(1

hot向量的离散分布)和经验分布。
[0005]许多工作已经探索了这种损失的缺点,诸如缺乏对噪声标签的鲁棒性和可能的差裕度,这导致泛化性能降低。然而,在实践中,大多数建议的替代方案似乎并没有更好地用于大规模数据集,诸如ImageNet,这可以通过持续使用交叉熵来实现最先进的结果来证明。
[0006]许多对常规交叉熵提出的改进实际上涉及损失定义的放宽,特别是参考分布是轴对齐的。用这些修改训练的模型显示出改进的泛化能力、鲁棒性和校准。然而,所提出的改进不能完全消除交叉熵损失方法的缺点。

技术实现思路

[0007]本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获知,或者可以通过实施例的实践获知。
[0008]本公开的一个示例方面针对执行视觉表示的监督对比学习的计算系统。该计算系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质,其共同存储:被配置成处理输入图像以生成输入图像的嵌入表示的基本编码器神经网络;投影头神经网络,被配置为处理输入图像的嵌入表示,以生成输入图像的投影表示;以及当由一个或多个处理器执行时使计算系统执行操作的指令。这些操作包括获得与多个类中的第一类相关联的锚定图像、与第一类相关联的多个正图像以及与多个类中的一个或多个其他类相关联的一个或多个负图像,该一个或多个其他类不同于第一类。操作包括用基本编码器神经网络处理锚定图像以获得锚定图像的锚定嵌入表示,处理多个正图像以分别获得多个正嵌入表示,以及处理一个或多个负图像以分别获得一个或多个负嵌入表示。操作包括用投影头神经网络处理锚定嵌入表示以获得锚定图像的锚定投影表示,处理多个正嵌入表示以分别获得多个正投影表示,以及处理一个或多个负嵌入表示以分别获得一个或多个负投影表示。这些操作包括评估损失函数,该损失函数评估锚定投影表示与多个正投影表示中的每个正投影表示和一个或多个负投影表示中的每个负投影表示之间的相似性度量。这些操作包括至少部分基于损失函数来修改至少基本编码器神经网络的一个或多个参数的一个或多个值。
[0009]本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户接口和电
子设备。
[0010]参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书并构成其一部分的附图示出了本公开的示例实施例,并与描述一起用于解释相关原理。
附图说明
[0011]针对本领域普通技术人员的实施例的详细讨论在参考附图的说明书中阐述,其中:
[0012]图1A和1B示出了根据本公开的示例实施例的监督与自监督对比损失之间的差异。
[0013]图2A

C示出了根据本公开的示例实施例的交叉熵、自监督对比损失和监督对比损失之间的差异。
[0014]图3示出了根据本公开的示例实施例的示例对比学习框架。
[0015]图4示出了示例微调模型,其特征在于根据根据本公开的示例实施例的示例对比学习框架学习的基本编码器。
[0016]图5A描绘了根据本公开的示例实施例的示例计算系统的框图。
[0017]图5B描绘了根据本公开的示例实施例的示例计算设备的框图。
[0018]图5C描绘了根据本公开的示例实施例的示例计算设备的框图。
[0019]在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。
具体实施方式
[0020]总览
[0021]总的来说,本公开涉及一种改进的训练方法,该方法使得能够跨多个正训练例和负训练例同时执行监督对比学习。特别地,本公开的示例方面针对批量对比损失的改进的监督版本,其已经被证明对于在自监督设置中学习强大的表示非常有效。因此,所提出的技术使对比学习适应于完全监督的设置,并且还使得学习能够跨多个正例同时发生。
[0022]通过使对比学习能够跨来自相同类的多个正训练例和来自其他类的多个负训练例同时发生,属于相同类的点的整个集群可以在嵌入空间中被拉在一起,而来自不同类的样本集群被同时推开。因此,所提出的技术用于增加样本的正对之间的相似性,并降低负对之间的相似性。例如,相似性可以定义为低维表示之间的内积。所得到的表示是一个非常好的表示,可以用于各种下游传输任务。
[0023]因此,所提出的系统和方法能够比使用交叉熵损失的系统更有效地利用标签或其他类分配信息。特别地,使用对比学习方法允许在嵌入空间内的任何点学习每个类的表示,而不是像交叉熵损失中所做的那样,强迫每个类的表示与特定的轴对齐的类值一致,从而允许学习更鲁棒的类间表示,。
[0024]根据所提出的技术训练的示例模型在跨不同架构和数据增强的监督学习任务上始终优于交叉熵。具体地,如美国临时专利申请号63/013,153中包含的关于ResNet

50和ResNet

200的示例实验结果所示,根据所提出的技术训练的示例模型胜过交叉熵超过1%,在使用自动增强数据增强的方法中设定了78:8%的新的最好数字。
[0025]所提出的损失还在校准和准确性两方面上的标准基准上显示了对自然破坏的鲁
棒性的明显益处。此外,与交叉熵相比,所提出的监督对比损失对于诸如优化器或数据增强的超参数设置更稳定。本公开的附加方面利用了诸如大批量和归一化表示的关键成分,这些已经被证明有益于自监督学习。
[0026]更具体地,本公开的示例方面针对监督训练的新损失,其完全去除了参考分布;相反,所提出的系统的示例实施方式简单地采用了来自相同类的归一化表示比来自不同类的表示更接近。提出的损失建立在对比目标函数家族之上,该目标函数家族近年来在图像和视频领域的自监督学习中取得了优异的性能,并且与度量学习的大量文献有联系。
[0027]顾名思义,对比损失由两个“相反的力”组成:对于给定的锚定,第一个力在表示空间中将锚定拉得更靠近其他点,并且第二个力将锚定推得更远离其他点。前一组称为正,并且后一组称为负。
[0028]本公开的一个方面是除了许多负例之外,对于每个锚定考虑许多正例(例如,与仅使用单个正例的自监督对比学习中的惯例相反)。在一些实施方式中,所提供的标签或其他基于类的指定可以用于选择正例和负例。图1A

B和2A

C提供了所提出的损失的视觉解释。
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种执行视觉表示的监督对比学习的计算系统,所述计算系统包括:一个或多个处理器;和一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储:基本编码器神经网络,被配置为处理输入图像以生成所述输入图像的嵌入表示;投影头神经网络,被配置为处理所述输入图像的嵌入表示,以生成所述输入图像的投影表示;和指令,当由所述一个或多个处理器执行时,使所述计算系统执行操作,所述操作包括:获得与多个类中的第一类相关联的锚定图像、与所述第一类相关联的多个正图像以及与所述多个类中的一个或多个其他类相关联的一个或多个负图像,所述一个或多个其他类不同于所述第一类;用所述基本编码器神经网络处理所述锚定图像以获得所述锚定图像的锚定嵌入表示,处理所述多个正图像以分别获得多个正嵌入表示,以及处理一个或多个负图像以分别获得一个或多个负嵌入表示;用所述投影头神经网络处理所述锚定嵌入表示以获得所述锚定图像的锚定投影表示,处理所述多个正嵌入表示以分别获得多个正投影表示,以及处理所述一个或多个负嵌入表示以分别获得一个或多个负投影表示;评估损失函数,所述损失函数评估所述锚定投影表示与所述多个正投影表示中的每个正投影表示和所述一个或多个负投影表示中的每个负投影表示之间的相似性度量;以及至少部分基于所述损失函数来修改至少所述基本编码器神经网络的一个或多个参数的一个或多个值。2.根据任一前述权利要求所述的计算系统,其中所述锚定图像和一个或多个正图像中的至少一个正图像描绘了属于所述多个类中相同的第一类的不同对象。3.根据任一前述权利要求所述的计算系统,其中所述多个正图像包括包含在训练批次内的与所述第一类相关联的所有图像,并且其中一个或多个负锚定图像包括包含在所述训练批次内的不与除所述第一类之外的所述多个类中的任何一个类相关联的所有图像。4.根据任一前述权利要求所述的计算系统,其中所述操作还包括在用所述基本编码器神经网络处理所述锚定图像、所述多个正图像和所述一个或多个负图像中的每个图像之前,分别增强所述锚定图像、所述多个正图像和所述一个或多个负图像中的每个图像。5.根据任一前述权利要求所述的计算系统,其中所述投影头神经网络包括归一化层,所述归一化层...

【专利技术属性】
技术研发人员:D克里希南P科斯拉P泰特瓦克AY萨尔纳AJ马希诺特C刘PJ伊索拉Y田C王
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1