【技术实现步骤摘要】
一种基于自监督学习的掩码图像建模算法
[0001]本专利技术涉及掩码图像建模
,尤其涉及一种基于自监督学习的掩码图像建模算法。
技术介绍
[0002]自监督学习可以利用大量无标注数据进行训练,提高模型的泛化能力和效率,被广泛应用于图像、语音、文本等领域。得益于掩码语言建模(Masked Language Modeling,MLM)在自然语言处理上成功和视觉Transformer的发展,掩码图像建模(Masked Image Modeling,MIM)在自监督视觉表示学习领域取得了卓越的成功。MIM通过首先掩蔽输入的一些部分,然后基于未掩蔽的部分预测其信号来学习语义表示,例如,归一化像素、离散标记、HOG特征、深度特征或频率。
[0003]MAE(MaskedAutoencoders)是用于MIM的自监督学习方法,优点是扩展性强,方法简单。MAE会随机mask输入图片的部分patches,然后重构这些缺失的像素。MAE采用非对称的编码解码结构,编码器仅仅对可见的patches进行编码,不对mask tokens进行任何处理,解码器将编码器的输出和mask tokens作为输入,重构图像。由于图像和语言数据的信息密度的差异,MAE使用较高的mask比例。然而,这样会导致具有巨大的计算负担和缓慢的学习过程。且随机mask不同的patches,模型会产生不同预测结果,存在较高的不确定性。此类问题也是掩码图像建模的共性问题。
[0004]综上所述,本专利技术通过设计一种基于自监督学习的掩码图像建模深度学习 ...
【技术保护点】
【技术特征摘要】
1.一种基于自监督学习的掩码图像建模算法,其特征包括以下步骤:步骤S1:MIM主要使用的开源数据集是ImageNet Dataset、COCO Dataset和Places365 Dataset等,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,首先对数据进行转换,图像缩放到相同的大小并进行归一化处理;步骤S2,将图像划分为相同大小的patches,随机对部分patches添加掩码(高掩码比),未添加掩码的可见patches作为编码器(ViT)的输入进行编码,对可见patches执行线性投影,再加上位置嵌入,然后送入transformer块得到潜在特征表示;步骤S3,将掩码patches和编码器的输出按照原始图像中的顺序合并,作为解码器(ViT)的输入,解码器最后一层为线性投影,将潜在特征映射回像素空间,完成整张图像的重建预测;步骤S4,对同一张图像,采用S2中添加掩码的方式,可以得到可见patches不重叠的多个掩码图像,任意两个掩码图像的重建预测中存在部分相同的掩码patches,将不同掩码图像中相同掩码patches的重建结果的平均绝对误差最小化,以增强模型预测结果的确定性;步骤S5,根据上面重建的掩码patches,计算与原始图像patches的均方误差(MSE),最小化以优化模型,模型可以直接执行图像重建任务,也可以使用不同模块替换解码器,经过微调后执行相应的下游任务。2.根据权利要求1所述的一种基于自监督学习的掩码图像建模算法,S1中使用的图像数据统一缩放至224
×
224大小。3.根据权利要求1所述的一种基于自监督学习的掩码图像建模算法,S2中划分的图像patches大小为16
×
16,一张224
×
224大小的图像可划分为14
×
14个图像patches,把14
×
14个图像patches随机等分为4部分,作为可见patches,对其余patches添加掩码,通过这种方式,一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像,每个掩码图像使用一个长度为14
×
14的向量t表示位置信息,向量t中每个元素都满足{0,1}二值分布,0表示掩码patches,1表示可见patches,元素索引为图像patches位置信息,每个掩码图像中包含一对互补组合x:可见patches x
v
=x
⊙
t和掩码patchesx
m
=x
⊙
(1
‑
t),图像patches的随机划分采用以下策略:(1)初始化一个14
×
14的向量d=[0,1,
…
,195];(2)随机打乱向量d中的元素的顺序;(3)初始化4个14
×
14的零向量t0,t1,t2,t3用来保存掩码图像信息;(4)设i={0,1,2,3},t
i
更新过程如公式(1)所示:t
i
[d[4*i:4*(i+1)]]=1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)由此一张原始图像可以得到4个可见patches互不重叠且掩码比为75%的掩码图像。其中75%为最佳掩码比,降低掩码比会增加图像冗余信息,过高掩码比会由于图像信息过少导致图像重建效果不佳。编码器采用ViT,输入为向量t中位置元素为1的可见patches,...
【专利技术属性】
技术研发人员:张正卿,胡超,朱力强,黄家耀,赖盛鑫,邬伟杰,
申请(专利权)人:联通上海产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。