一种基于非对称掩码的对比学习方法技术

技术编号：38097010 阅读：10 留言：0更新日期：2023-07-06 09:12

本发明专利技术公开了一种基于非对称掩码的对比学习方法对提取的图像的语义信息进行图像分类的方法，主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对；采用非对称掩码策略对图像块进行采样，降低重叠区域的采样率，构建具有较大外观差异的正样本对；将采样的图像块输入到一对参数共享的编码器中，其中一侧编码器使用梯度下降更新，另一侧编码器则动量更新来提取图像表征；将图像表征分别经过映射模块和预测模块，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异；同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。本发明专利技术能够更好的捕捉图像表征信息，从而能够提高图像分类的准确率。提高图像分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于非对称掩码的对比学习方法

[0001]本专利技术属于图像分类
，涉及一种基于非对称掩码的对比学习方法。

技术介绍

[0002]深度学习的迅速进展,使它成为了许多现代人工智能技术的基础方法。传统的监督训练方式,严重依赖于带标签的数据集。这就是自监督方法在推动深度学习进步方面发挥重要作用的地方，它不需要昂贵的带标签的数据，即在学习图像表征时不需要提供有监督的数据。近年来，自监督/无监督学习的领域取得了巨大的突破。基于代理任务的差异，目前较为流行的分支包括对比学习(CL)和掩码图像建模(MIM)。
[0003]对于对比学习任务，需要训练模型将同一图像的不同视图与其他图像区分开来，这种方式称为实例区分。为了学习有效的图像表征，不对称设计在对比学习中发挥着至关重要的作用，它在低级特征上引入了一系列变化，但不改变图像的语义信息。其中最重要的非对称设计是一系列应用于正样本对的数据增强技术，例如，颜色变换、灰度变换和曝光等操作，它们显著的改变了正样本的颜色，因此这要求基于对比学习的模型捕获图像中无关于颜色的表征。然后，随机裁剪操作引入了图像大小和比例的变化，这进一步消除了模型对图像的大小和比例的依赖性。因此，该模型被训练来使用语义特征来识别对象，而不是浅显的表层特征。此外，非对称设计也被引入到网络架构中，例如预测模块和动量编码器，它们改变了正样本对的表征。因此，合理的不对称设计对于对比学习的表现非常重要。然而，由于正样本对之间的图像区域重叠，现有的对比学习方法中正样本对仍然存在大量的外观相似性，这降低了模型学习...

【技术保护点】

【技术特征摘要】
1.一种基于非对称掩码的对比学习方法，其特征在于，包括以下步骤：步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强，获取裁剪框，构建正样本对。步骤2、采用非对称掩码策略对图像块掩码采样，降低正样本之间重叠区域的采样率，构建具有较大外观差异的正样本对。步骤3、分别将正样本对放入初始参数共享的编码器中，提取图像表征信息。其中一侧编码器使用梯度下降更新，另一侧编码器则动量更新。步骤4、将图像表征分别经过映射模块和预测模块，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异。步骤5、在训练的过程中利用自适应的裁剪梯度策略来平稳梯度、稳定训练过程。步骤6、通过训练得到的模型在图像分类任务上微调，对测试数据集图像进行分类。2.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤1中，对原始图像做两次不对称的数据增强的过程是：首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的左上角坐标和长宽数据保存为Box：Box＝[i,j,h,w]对图像进行两次裁剪后，得到了图像两个视图的矩形框，分别为Box1和Box2。之后，使用双线性插值将裁剪后的图像恢复成指定的模型输入大小，让模型学习无关于图像尺寸和区域的表征。随后将图像分别做随机的水平和垂直翻转。进一步的，对图像做颜色变换、灰度变化和曝光操作，最后将原始数据做归一化操作。3.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤2中，对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致，掩码块的总数量为掩码比率乘以总的图像块个数。为了进一步的降低正样本对的外观相似性，采用非对称掩码策略来降低重叠区域的采样率，提高非重叠区域的采样率。首先对视图1中的图像块进行随机采样，再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据视图2与视图1之间的图像块的重叠比例来确定视图2中与视图1的采样率。其中，重叠比例的计算方式如下：其中，P
i
(i＝1,2)代表视图i中采样的图像块。S(
·
)代表的是给定图像块的面积。为了降低重叠图像块的采样概率，在视图2中使用了一种选择性的图像采样方法，其采样概率密度p
sel
通过以下公式计算：p
sel
＝(γ+1)
·
s1·
(1
‑
r
overlap
)
γ
其中s1指的是视图1中的图像块的采样概率，γ是调整采样灵敏度的超参数。γ越大，图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。由于稀疏采样策略从第一视图x1均匀的采样图像块，因此重叠区域x1∩x2中的图像块采样的概率也是s1，与x1中的概率相同。因此，采样概率密度需要满足以下等式：
4.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤3中，采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(
·
)，得到对应的Token嵌入向量。为了使图像不丢失位置信息，所有的Token嵌入向量中都加上可学习的位置编码E
pos
，同时除了所有的Token外，...

【专利技术属性】
技术研发人员：沈成超，陈建忠，王建新，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人