【技术实现步骤摘要】
一种基于MAE的预训练方法
[0001]本专利技术应用于计算机视觉领域,具体是一种基于MAE的预训练方法。
技术介绍
[0002]预训练是计算机视觉领域的一种主流方式,预训练最早源于计算机视觉,通过在ImageNet分类上预先训练目标检测和分类模型的骨干,以此来帮助其他的数据场景。这种预训练方法是基于CNN结构的,而后被借鉴到自然语言处理领域,随着transformer模型结构的兴起而得到了非常成功的发展。目前计算机视觉最前沿的研究就是将在自然语言处理领域大获成功的基于transformer结构的预训练模型应用到视觉领域。
[0003]视觉领域目前的非监督预训练方法包含两种,一种是对比学习,适用于分类任务,通过数据增广,一张图片的增广和其本身属于正样本,而剩余的图片为负样本;另一种是学习自然语言处理预训练的方法,基于对掩码的预测方式来进行非监督学习,目前视觉领域最主流的掩码方法有两种,一种是以VIT预训练模型为代表的MAE方法,另一种是以swin预训练模型为代表的SimMIM方法。
[0004]但由于视觉领域 ...
【技术保护点】
【技术特征摘要】
1.一种基于MAE的预训练方法,其特征在于,具体包括如下步骤:获取训练集图片;利用改进的MAE算法对训练集图片进行两阶段的掩码处理;将经过掩码的图片输入预训练模型以获取特征;特征经过预训练模型最终输出补全掩码后的图片。2.根据权利要求1所述的一种基于MAE的预训练方法,其特征在于:所述利用改进的MAE算法对训练集图片进行两阶段的掩码处理步骤具体包括:第一阶段,对训练集图片进行patch网格区域分割,对每2x2的4格随机采样1格,用于使算符均匀分配至等量token序列对象;第二阶段,在第一个阶段采样的token对象基础上,再进行一次随机mask操作,将其中预设比例部分的token随机采样为可学习的共享mask token。3.根据权利要求2所述的一种基于MAE的预训练方法,其特征在于:所述将其中预设比例部分的token随机采样为可学习的共享masktoken中的预设比例为25%。4.根据权利要求1所述的一种基于MAE的预训练方法,其特征在于:所述将经过掩码的图片输入预训练模型以获取特征步骤具体包括:将经过掩码的图片输入Swin模型;通过两个LinearEmbedding+transformerblock模...
【专利技术属性】
技术研发人员:王家逸,
申请(专利权)人:新大陆数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。