一种基于MAE的预训练方法技术

技术编号：38580502 阅读：27 留言：0更新日期：2023-08-26 23:26

本发明专利技术公开一种基于MAE的预训练方法，具体包括如下步骤：获取训练集图片；利用改进的MAE算法对训练集图片进行两阶段的掩码处理；将经过掩码的图片输入预训练模型以获取特征；特征经过预训练模型最终输出补全掩码后的图片。本发明专利技术提出了对MAE非监督预训练算法的改进，改进后的MAE算法能够在支持金字塔结构的swin预训练模型上进行非监督训练，训练所需要的显存从100G以上降至20G，在双卡机器上就可以支持训练，有效节省了大量显存，使一般的机器资源进行大规模的预训练任务成为可能，有效提升了计算资源的利用空间。经过MAE非监督预训练的swin模型，可以支持各场景监督数据的微调和下游任务的训练。调和下游任务的训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MAE的预训练方法

[0001]本专利技术应用于计算机视觉领域，具体是一种基于MAE的预训练方法。

技术介绍

[0002]预训练是计算机视觉领域的一种主流方式，预训练最早源于计算机视觉，通过在ImageNet分类上预先训练目标检测和分类模型的骨干，以此来帮助其他的数据场景。这种预训练方法是基于CNN结构的，而后被借鉴到自然语言处理领域，随着transformer模型结构的兴起而得到了非常成功的发展。目前计算机视觉最前沿的研究就是将在自然语言处理领域大获成功的基于transformer结构的预训练模型应用到视觉领域。
[0003]视觉领域目前的非监督预训练方法包含两种，一种是对比学习，适用于分类任务，通过数据增广，一张图片的增广和其本身属于正样本，而剩余的图片为负样本；另一种是学习自然语言处理预训练的方法，基于对掩码的预测方式来进行非监督学习，目前视觉领域最主流的掩码方法有两种，一种是以VIT预训练模型为代表的MAE方法，另一种是以swin预训练模型为代表的SimMIM方法。
[0004]但由于视觉领域...

【技术保护点】

【技术特征摘要】
1.一种基于MAE的预训练方法，其特征在于，具体包括如下步骤：获取训练集图片；利用改进的MAE算法对训练集图片进行两阶段的掩码处理；将经过掩码的图片输入预训练模型以获取特征；特征经过预训练模型最终输出补全掩码后的图片。2.根据权利要求1所述的一种基于MAE的预训练方法，其特征在于：所述利用改进的MAE算法对训练集图片进行两阶段的掩码处理步骤具体包括：第一阶段，对训练集图片进行patch网格区域分割，对每2x2的4格随机采样1格，用于使算符均匀分配至等量token序列对象；第二阶段，在第一个阶段采样的token对象基础上，再进行一次随机mask操作，将其中预设比例部分的token随机采样为可学习的共享mask token。3.根据权利要求2所述的一种基于MAE的预训练方法，其特征在于：所述将其中预设比例部分的token随机采样为可学习的共享masktoken中的预设比例为25％。4.根据权利要求1所述的一种基于MAE的预训练方法，其特征在于：所述将经过掩码的图片输入预训练模型以获取特征步骤具体包括：将经过掩码的图片输入Swin模型；通过两个LinearEmbedding+transformerblock模...

【专利技术属性】
技术研发人员：王家逸，
申请(专利权)人：新大陆数字技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人