一种基于自监督学习的掩码图像建模算法制造技术

技术编号：39048586 阅读：13 留言：0更新日期：2023-10-10 12:01

本发明专利技术涉及掩码图像建模(MaskedImageModeling,MIM)技术领域，尤其涉及一种基于自监督学习(Self

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自监督学习的掩码图像建模算法

[0001]本专利技术涉及掩码图像建模
，尤其涉及一种基于自监督学习的掩码图像建模算法。

技术介绍

[0002]自监督学习可以利用大量无标注数据进行训练，提高模型的泛化能力和效率，被广泛应用于图像、语音、文本等领域。得益于掩码语言建模(Masked Language Modeling,MLM)在自然语言处理上成功和视觉Transformer的发展，掩码图像建模(Masked Image Modeling,MIM)在自监督视觉表示学习领域取得了卓越的成功。MIM通过首先掩蔽输入的一些部分，然后基于未掩蔽的部分预测其信号来学习语义表示，例如，归一化像素、离散标记、HOG特征、深度特征或频率。
[0003]MAE(MaskedAutoencoders)是用于MIM的自监督学习方法，优点是扩展性强，方法简单。MAE会随机mask输入图片的部分patches，然后重构这些缺失的像素。MAE采用非对称的编码解码结构，编码器仅仅对可见的patches进行编码，不对mask tokens进行任何处理，解码器将编码器的输出和mask tokens作为输入，重构图像。由于图像和语言数据的信息密度的差异，MAE使用较高的mask比例。然而，这样会导致具有巨大的计算负担和缓慢的学习过程。且随机mask不同的patches，模型会产生不同预测结果，存在较高的不确定性。此类问题也是掩码图像建模的共性问题。
[0004]综上所述，本专利技术通过设计一种基于自监督学习的掩码图像建模深度学习...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的掩码图像建模算法，其特征包括以下步骤：步骤S1：MIM主要使用的开源数据集是ImageNet Dataset、COCO Dataset和Places365 Dataset等，如需在自己的数据集上进行训练，需要将数据格式准备为与上述数据集一致，首先对数据进行转换，图像缩放到相同的大小并进行归一化处理；步骤S2，将图像划分为相同大小的patches，随机对部分patches添加掩码(高掩码比)，未添加掩码的可见patches作为编码器(ViT)的输入进行编码，对可见patches执行线性投影，再加上位置嵌入，然后送入transformer块得到潜在特征表示；步骤S3，将掩码patches和编码器的输出按照原始图像中的顺序合并，作为解码器(ViT)的输入，解码器最后一层为线性投影，将潜在特征映射回像素空间，完成整张图像的重建预测；步骤S4，对同一张图像，采用S2中添加掩码的方式，可以得到可见patches不重叠的多个掩码图像，任意两个掩码图像的重建预测中存在部分相同的掩码patches，将不同掩码图像中相同掩码patches的重建结果的平均绝对误差最小化，以增强模型预测结果的确定性；步骤S5，根据上面重建的掩码patches，计算与原始图像patches的均方误差(MSE)，最小化以优化模型，模型可以直接执行图像重建任务，也可以使用不同模块替换解码器，经过微调后执行相应的下游任务。2.根据权利要求1所述的一种基于自监督学习的掩码图像建模算法，S1中使用的图像数据统一缩放至224
×
224大小。3.根据权利要求1所述的一种基于自监督学习的掩码图像建模算法，S2中划分的图像patches大小为16
×
16，一张224
×
224大小的图像可划分为14
×
14个图像patches，把14
×
14个图像patches随机等分为4部分，作为可见patches，对其余patches添加掩码，通过这种方式，一张原始图像可以得到4个可见patches互不重叠且掩码比为75％的掩码图像，每个掩码图像使用一个长度为14
×
14的向量t表示位置信息，向量t中每个元素都满足{0,1}二值分布，0表示掩码patches，1表示可见patches，元素索引为图像patches位置信息，每个掩码图像中包含一对互补组合x：可见patches x
v
＝x
⊙
t和掩码patchesx
m
＝x
⊙
(1
‑
t)，图像patches的随机划分采用以下策略：(1)初始化一个14
×
14的向量d＝[0,1,
…
,195]；(2)随机打乱向量d中的元素的顺序；(3)初始化4个14
×
14的零向量t0,t1,t2,t3用来保存掩码图像信息；(4)设i＝{0,1,2,3}，t
i
更新过程如公式(1)所示：t
i
[d[4*i:4*(i+1)]]＝1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)由此一张原始图像可以得到4个可见patches互不重叠且掩码比为75％的掩码图像。其中75％为最佳掩码比，降低掩码比会增加图像冗余信息，过高掩码比会由于图像信息过少导致图像重建效果不佳。编码器采用ViT，输入为向量t中位置元素为1的可见patches，...

【专利技术属性】
技术研发人员：张正卿，胡超，朱力强，黄家耀，赖盛鑫，邬伟杰，
申请(专利权)人：联通上海产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人