一种视觉基础模型自监督的图像表征提取模型增强方法技术

技术编号：40278346 阅读：16 留言：0更新日期：2024-02-02 23:06

本发明专利技术公开了一种视觉基础模型自监督的图像表征提取模型增强方法，包括获取图像信息并输入至待训练图像表征提取模型的特征提取器中，以获得对应的视觉特征；将所述视觉特征沿通道维度采用通道掩码向量进行掩盖处理，以获得对应的残缺视觉特征；将所述残缺视觉特征输入至预构建的拓展模型中以输出对应的重构视觉特征；在隐表征空间对图像信息的视觉特征和重构视觉特征进行约束以更新待训练图像表征提取模型的网络参数，直至满足迭代终止条件以获得增强后的图像表征提取模型。本发明专利技术提供的方法能够构建高质量的图像训练集，从而为后续模型完成下游任务时提供更全面的性能指导。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像模型构建，尤其涉及一种视觉基础模型自监督的图像表征提取模型增强方法。

技术介绍

1、自监督学习通过构建不同的代理任务，利用大量没有标签的视觉数据对模型进行训练。通过对代理任务的学习，视觉模型能够学习好的数据表征，从而为下游视觉任务获得更好的性能。目前，最主流的视觉自监督方法包括对比学习和图片掩码建模。对比学习通过不同的数据增强方式为一张自然图片构建不同的视角，并将同一张图片的不同视角作为正样本对，来自不同图片的数据作为负样本对。对比学习通过在表征空间增大正样本对的相似性并减小负样本对的相似性进行数据表征学习。近期，图片掩码建模预训练方法因为其优秀的下游任务迁移性能以及可拓展性受到了广泛的关注。这类方法将自然图片划分为不相交的图片块，随机移除部分的图像块，模型通过剩下的图像块的信息来预测移除掉的图像信号。2020年，chen等人提出图片生成预训练(igpt)模型，对掩盖掉的低频的图片像素信息通过自回归的方式进行预测。2021年，bao等人提出图像transformer模型的双向编码器表征(beit)模型，他们利用一个额外的分词器将图片数据转换为视觉特征向量，然后让视觉模型去预测丢失图像块的视觉特征向量。同年，he等人提出掩码自编码器(mae)模型，xie等人提出简单的图片掩码建模(simmim)模型。mae设计了一个非对称的编码器-解码器结构，通过移除大比例的随机图像块并用解码器对其进行重建让编码器学习数据表征。simmim采用了一个简单的策略，在编码器后加一个线性层对丢失的图片像素进行预测。尽管目前的图片掩码建

2、专利文献cn116704221 a公开了一种图像处理方法、装置、设备和计算机可读存储介质，包括：获取参考图像，并获取与所述参考图像相似的相似图像；确定所述参考图像与所述相似图像之间的差异信息；确定所述参考图像中针对所述差异信息的目标掩码图；基于所述差异信息进行扩充，得到差异描述文本；根据所述目标掩码图、所述差异描述文本和所述参考图像，对所述相似图像进行局部调整，得到调整后的目标图像。

3、专利文献cn 116664409 a公开了一种图像超分辨率重建方法、装置、计算机设备及存储介质，首先将初始分辨率图像输入至超分辨率重建模型的线性激活模块中，得到初始分辨率图像的浅层图像特征；其次通过第一轻量级特征提取模块对浅层图像特征进行特征提取，得到第一深层图像特征；然后通过细粒度稀疏掩码分支对第一深层图像特征中的每个元素进行掩码设置，得到对应的细粒度稀疏掩码；接着通过鬼影特征提取分支，基于细粒度稀疏掩码以及第一深层图像特征进行鬼影特征提取，得到对应的第二深层图像特征；最后根据初始分辨率图像、浅层图像特征以及第二深层图像特征进行超分辨率重建，得到目标分辨率图像。

4、上述专利均采用移除空间维度上的图片信息来构造一个图片补全任务，对于视觉特征来说，空间上的局部视觉特征相比原始图像往往具有更高的相似性，仅仅移除空间上的特征并不能对语义信息有效移除。

技术实现思路

1、本专利技术的目的在于提供一种视觉基础模型自监督的图像表征提取模型增强方法，该方法能在较短时间内构建高质量的图像训练集，从而为后续模型完成下游任务时提供更全面的性能指导。

2、为了实现本专利技术的目的，提供了一种视觉基础模型自监督的图像表征提取模型增强方法，包括以下步骤：

3、获取图像信息并输入至待训练图像表征提取模型的特征提取器中，以获得对应的视觉特征；

4、将所述视觉特征沿通道维度采用通道掩码向量进行掩盖处理，以获得对应的残缺视觉特征；

5、将所述残缺视觉特征输入至预构建的拓展模型中，所述拓展模型包括特征提取模块，自注意力模块以及预测模块，所述特征提取模块用于提取输入残缺视觉特征的语义特征，所述自注意力模块用于对语义特征和残缺视觉特征进行注意力操作，所述预测模块根据注意力操作结果对缺失部分的语义特征进行生成，并基于生成的语义特征对残缺视觉特征进行修复，以输出对应的重构视觉特征；

6、在隐表征空间对图像信息的视觉特征和重构视觉特征进行约束以更新待训练图像表征提取模型的网络参数，直至满足迭代终止条件以获得增强后的图像表征提取模型。

7、本专利技术将视觉特征作为输入和输出，并且通过提出的特征通道掩码建模方法学习分布在特征通道上的语义关联，既能完整将图像信息进行掩盖，同时也能降低预训练任务的难度，有效对视觉特征中的语义信息进行移除并为后续模型训练提供高质量的训练数据。

8、具体的，所述视觉特征的生成过程如下：

9、将给定的图片信息沿通道维度划分为多个互不相交的图片块，并将图片块输入至特征提取器中以输出对应的图片块向量；

10、将图片块对应的类别表征向量嵌入相应图片块向量的头部，并对每个向量标注位置编码，以构建完整图片块向量；

11、将所述建完整图片块向量进行注意力操作，以获得对应的视觉特征。

12、具体的，所述通道掩码向量的位置表达式如下：

13、

14、其中，zi是视觉特征的第i个通道的特征图，表示通道掩码向量的位置，s表示被移除的特征通道的位置集合，δ(·)表示指示函数，当i∈s时，δ＝1，否则δ＝0。

15、具体的，所述隐表征空间位于拓展模型和待训练图像表征提取模型之间共享的层正则模块中进行构建，所述层正则模块用于防止拓展模型和待训练图像表征提取模型在训练过程过拟合。

16、具体的，通过计算视觉特征和重构视觉特征之间通道特征图损失，对所述待训练图像表征提取模型进行参数更新。

17、具体的，所述通道特征图损失的表达式如下：

18、

19、其中，σ(s)表示被移除的特征通道的数量，ln表示共享的层正则模块，ln(z)i表示对原始图像特征正则操作后第i个通道的图像特征，ln(zp)i表示对预测图像特征正则操作后第i个通道的图像特征。

20、具体的，在更新待训练图像表征提取模型时，采用adamw算法对拓展模型中的参数进行优化。

21、与现有技术相比，本专利技术的有益效果：

22、通过对已有模型的骨干网络输出进行掩码处理，从而在特征通道内对视觉特征的语义关联进行学习，该方式适用于任何已有的预训练模型，对其拓展的模型参数进行有效训练，在降低计算成本和时间成本的同时，能够有效提升基础模型对下游视觉任务的性能，并且拓展的模型能够继承基础模型的能力。

本文档来自技高网...

【技术保护点】

1.一种视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述视觉特征的生成过程如下：

3.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述通道掩码向量与视觉特征的向量比值为1：2。

4.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述通道掩码向量的位置表达式如下：

5.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述隐表征空间位于拓展模型和待训练图像表征提取模型之间共享的层正则模块中进行构建，所述层正则模块用于防止拓展模型和待训练图像表征提取模型在训练过程过拟合。

6.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，通过计算视觉特征和重构视觉特征之间通道特征图损失，对所述待训练图像表征提取模型进行参数更新。

7.根据权利要求6所述的视觉基础模型自监督的图像表征提取模型增强方

8.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，在更新待训练图像表征提取模型时，采用AdamW算法对拓展模型中的参数进行优化。

...

【技术特征摘要】

1.一种视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述视觉特征的生成过程如下：

3.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述通道掩码向量与视觉特征的向量比值为1：2。

4.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述通道掩码向量的位置表达式如下：

5.根据权利要求1所述的视觉基础模型自监督的图像表征提取模型增强方法，其特征在于，所述隐表征空间位于拓展模型和待训练图...

【专利技术属性】
技术研发人员：陈昊，刘阳，沈春华，王鑫龙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人