一种基于自监督学习的掩码图像建模算法制造技术

技术编号:39048586 阅读:13 留言:0更新日期:2023-10-10 12:01
本发明专利技术涉及掩码图像建模(MaskedImageModeling,MIM)技术领域,尤其涉及一种基于自监督学习(Self

【技术实现步骤摘要】
一种基于自监督学习的掩码图像建模算法


[0001]本专利技术涉及掩码图像建模
,尤其涉及一种基于自监督学习的掩码图像建模算法。

技术介绍

[0002]自监督学习可以利用大量无标注数据进行训练,提高模型的泛化能力和效率,被广泛应用于图像、语音、文本等领域。得益于掩码语言建模(Masked Language Modeling,MLM)在自然语言处理上成功和视觉Transformer的发展,掩码图像建模(Masked Image Modeling,MIM)在自监督视觉表示学习领域取得了卓越的成功。MIM通过首先掩蔽输入的一些部分,然后基于未掩蔽的部分预测其信号来学习语义表示,例如,归一化像素、离散标记、HOG特征、深度特征或频率。
[0003]MAE(MaskedAutoencoders)是用于MIM的自监督学习方法,优点是扩展性强,方法简单。MAE会随机mask输入图片的部分patches,然后重构这些缺失的像素。MAE采用非对称的编码解码结构,编码器仅仅对可见的patches进行编码,不对mask tokens进行任何处理,解码器将编码器的输出和mask tokens作为输入,重构图像。由于图像和语言数据的信息密度的差异,MAE使用较高的mask比例。然而,这样会导致具有巨大的计算负担和缓慢的学习过程。且随机mask不同的patches,模型会产生不同预测结果,存在较高的不确定性。此类问题也是掩码图像建模的共性问题。
[0004]综上所述,本专利技术通过设计一种基于自监督学习的掩码图像建模深度学习范式实现高精度和高效率的掩码图像建模。

技术实现思路

[0005]针对现阶段自监督掩码图像建模算法的存在缺陷,本专利技术提供一种新的基于自监督学习的掩码图像建模算法,首将图像划分为patches并随机分为4等份,每份patches作为可见patches,其余作为掩码patches,由此的到4张掩码图像,可见patches作为编码器输入得到潜在特征表示,编码后的可见patches和掩码patches共同作为编码器的输入进行图像重建,通过将同一图像得到的不同掩码图像中的掩码patches重叠部分预测结果的平均绝对误差最小化,以增强模型重建结果的确定性。在开源数据集上掩码图像建模方法中位于前列位置。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于自监督学习的掩码图像建模算法,包括以下步骤:
[0008]步骤S1:MIM主要使用的开源数据集是ImageNet Dataset、COCO Dataset和Places365 Dataset等,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,首先对数据进行转换,图像缩放到相同的大小并进行归一化处理;
[0009]步骤S2,将图像划分为相同大小的patches,随机对部分patches添加掩码(高掩码比),未添加掩码的可见patches作为编码器(ViT)的输入进行编码,对可见patches执行线
性投影,再加上位置嵌入,然后送入transformer块得到潜在特征表示;
[0010]步骤S3,将掩码patches和编码器的输出按照原始图像中的顺序合并,作为解码器(ViT)的输入,解码器最后一层为线性投影,将潜在特征映射回像素空间,完成整张图像的重建预测;
[0011]步骤S4,对同一张图像,采用S2中添加掩码的方式,可以得到可见patches不重叠的多个掩码图像,任意两个掩码图像的重建预测中存在部分相同的掩码patches,将不同掩码图像中相同掩码patches的重建结果的平均绝对误差最小化,以增强模型预测结果的确定性;
[0012]步骤S5,根据上面重建的掩码patches,计算与原始图像patches的均方误差(MSE),最小化以优化模型,模型可以直接执行图像重建任务,也可以使用不同模块替换解码器,经过微调后执行相应的下游任务。
[0013]一种基于自监督学习的掩码图像建模算法,S1中使用的图像数据统一缩放至224
×
224大小。
[0014]S2中划分的图像patches大小为16
×
16,一张224
×
224大小的图像可划分为14
×
14个图像patches,把14
×
14个图像patches随机等分为4部分,作为可见patches,对其余patches添加掩码,通过这种方式,一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像,每个掩码图像使用一个长度为14
×
14的向量t表示位置信息,向量t中每个元素都满足{0,1}二值分布,0表示掩码patches,1表示可见patches,元素索引为图像patches位置信息,每个掩码图像中包含一对互补组合x:可见patchesx
v
=x

t和掩码patches x
m
=x

(1

t),图像patches的随机划分采用以下策略:
[0015](1)初始化一个14
×
14的向量d=[0,1,

,195];
[0016](2)随机打乱向量d中的元素的顺序;
[0017](3)初始化4个14
×
14的零向量t0,t1,t2,t3用来保存掩码图像信息;
[0018](4)设i={0,1,2,3},t
i
更新过程如公式(1)所示:
[0019]t
i
[d[4*i:4*(i+1)]]=1
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0020]由此一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像。其中75%为最佳掩码比,降低掩码比会增加图像冗余信息,过高掩码比会由于图像信息过少导致图像重建效果不佳。
[0021]编码器采用ViT,输入为向量t中位置元素为1的可见patches,就像在标准的ViT中一样,编码器通过线性投影嵌入patches(为每个输入的patch生成一个token),并添加位置嵌入,然后通过一系列Transformer块来处理嵌入序列,由于编码器只处理整个patches集合中的25%可见patches,可以使用较少的计算资源和硬件成本训练一个较大大的编码器,同时对图像数据的充分利用也大大减少了模型的训练难度。
[0022]S3中的解码器是轻量级的,由一系列Transformer块组成,输入为可见patches经过编码器处理后得到的潜在特征表示和掩码tokens(向量t中位置元素为0的patches),掩码tokens是一个共享的可学习向量,表示存在一个需要预测的缺失的patch,并添加位置嵌入,解码器的最后一层是线性投影,为方便重建掩码patches,输出通道数量和一个patch内的pixel数量相同,输出的每个元素都本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的掩码图像建模算法,其特征包括以下步骤:步骤S1:MIM主要使用的开源数据集是ImageNet Dataset、COCO Dataset和Places365 Dataset等,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,首先对数据进行转换,图像缩放到相同的大小并进行归一化处理;步骤S2,将图像划分为相同大小的patches,随机对部分patches添加掩码(高掩码比),未添加掩码的可见patches作为编码器(ViT)的输入进行编码,对可见patches执行线性投影,再加上位置嵌入,然后送入transformer块得到潜在特征表示;步骤S3,将掩码patches和编码器的输出按照原始图像中的顺序合并,作为解码器(ViT)的输入,解码器最后一层为线性投影,将潜在特征映射回像素空间,完成整张图像的重建预测;步骤S4,对同一张图像,采用S2中添加掩码的方式,可以得到可见patches不重叠的多个掩码图像,任意两个掩码图像的重建预测中存在部分相同的掩码patches,将不同掩码图像中相同掩码patches的重建结果的平均绝对误差最小化,以增强模型预测结果的确定性;步骤S5,根据上面重建的掩码patches,计算与原始图像patches的均方误差(MSE),最小化以优化模型,模型可以直接执行图像重建任务,也可以使用不同模块替换解码器,经过微调后执行相应的下游任务。2.根据权利要求1所述的一种基于自监督学习的掩码图像建模算法,S1中使用的图像数据统一缩放至224
×
224大小。3.根据权利要求1所述的一种基于自监督学习的掩码图像建模算法,S2中划分的图像patches大小为16
×
16,一张224
×
224大小的图像可划分为14
×
14个图像patches,把14
×
14个图像patches随机等分为4部分,作为可见patches,对其余patches添加掩码,通过这种方式,一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像,每个掩码图像使用一个长度为14
×
14的向量t表示位置信息,向量t中每个元素都满足{0,1}二值分布,0表示掩码patches,1表示可见patches,元素索引为图像patches位置信息,每个掩码图像中包含一对互补组合x:可见patches x
v
=x

t和掩码patchesx
m
=x

(1

t),图像patches的随机划分采用以下策略:(1)初始化一个14
×
14的向量d=[0,1,

,195];(2)随机打乱向量d中的元素的顺序;(3)初始化4个14
×
14的零向量t0,t1,t2,t3用来保存掩码图像信息;(4)设i={0,1,2,3},t
i
更新过程如公式(1)所示:t
i
[d[4*i:4*(i+1)]]=1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)由此一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像。其中75%为最佳掩码比,降低掩码比会增加图像冗余信息,过高掩码比会由于图像信息过少导致图像重建效果不佳。编码器采用ViT,输入为向量t中位置元素为1的可见patches,...

【专利技术属性】
技术研发人员:张正卿胡超朱力强黄家耀赖盛鑫邬伟杰
申请(专利权)人:联通上海产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1