计算机视觉模型预训练方法、装置、计算机设备及介质制造方法及图纸

技术编号：40977372 阅读：2 留言：0更新日期：2024-04-18 21:24

本发明专利技术涉及人工智能技术领域，具体涉及计算机视觉模型预训练方法、装置、计算机设备及介质。该方法包括：获取训练样本和预设掩码比例，根据预设掩码比例将多个图像块随机平均划分得到图像块的分组结果；基于分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵；采用掩码矩阵和采用基于局部自注意力的Transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练。通过实施本发明专利技术，采用掩码注意力矩阵进行Transformer模型的预训练时，每进行一次自注意力计算，等价于同时处理固定个数带掩码的样本，同时也解决了每个窗口可见patch数量不一致难以并行的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及计算机视觉模型预训练方法、装置、计算机设备及介质。

技术介绍

1、当前机器学习领域大致形成了“预训练+微调”的范式，即在源任务上预先训练一个初始模型，然后在目标任务上使用该模型，根据目标任务的特性，对初始模型进行微调，从而提高目标任务的性能。这是一种迁移学习的方法，旨在从源任务获取重要的知识，然后应用到目标任务上。

2、传统视觉模型的训练依赖大量数据标注，耗时且价格昂贵。因此自监督训练方法，即在不使用任何人工标注的情况下从大规模未标记图像或视频中学习视觉特征的方法被提出。视觉领域内的自监督学习，包括对比学习、特征重构、像素重构等。

3、随着vision transformer(视觉自注意力模型，vit)的发展，掩码图像建模(masked image modeling)成为计算机视觉中一种主流的自监督预训练范式。掩码图像建模将图像划分为大量图像块(patch)，将其中的一些patch掩码掉，利用其他剩余的可见patch对被掩码的patch在原始像素空间或表示空间进行预测，例如预测随机掩码输入图像块的原始像素或潜在特征等。通过这种预训练方法来训练图像编码器，期望编码器编码的表征包含丰富的语义信息。其中，具有代表性的掩码自编码器(masked auto encoder，mae)、data2vec等表现出了有竞争力的性能和极高的效率。

4、mae模型通过随机掩码掉图像的部分patch，然后对输入(input)的原始像素进行重建，它采用非对称的编码器(encoder)-解

5、data2vec在表示空间中进行掩码预测，是使用标准transformer体系结构下的自蒸馏(self-distillation)。data2vec的训练目标是给定掩码样本(masked)的情况下预测未掩码的样本表示：教师网络的输入为原始样本(original)，输出为目标表征。学生网络的输入为带掩码的图像，输出预测教师的潜在表征。教师网络参数使用指数滑动平均更新，训练时使用梯度更新学生网络，动量更新教师网络。模型训练的目标是回归教师网络顶层k层输出的归一化均值的归一化值。data2vec通过对表示空间预测，可以学习到更加通用的、泛化性能更强的特征表达。

6、上述两种具有代表性的掩码图像建模方法都采用标准vit的体系结构。vit在图像分类任务中表现出强大的实力，但在密集型任务如检测、分割等尚有提升空间。同时，由于密集型任务中图片分辨率太高，如果以像素点作为基本单位，序列长度带来的开销过高。swin transformer是近年来提出的一种基于局部自注意力的分层transformer架构。它是一种使用了移动窗口的vit，主要思想借鉴于cnn的多尺度思想，将vit划分为若干block(块)，进行层级式的特征提取，从而可以作为一个通用的骨干网络，更好地服务于检测、分割等cv下游任务。vit将整张图像拆分成一个个patch来减少序列长度，但自注意力操作仍需在整张图片上的所有patch之间进行。不同于此，swin transformer将特征图划分为多个不相交的窗口，并且多头自注意力只在每个窗口内进行。这既使得计算效率更高，而这种窗口的移动也使得相邻的窗口之间进行交互，从而达到全局建模的能力。

7、由此，为了将transformer更好地应用于计算机视觉领域，尤其是那些需要处理视觉元素尺度变化的任务，使用层级结构的模型至关重要。然而，如何更好地将层次视觉transformer，例如swin transformer，集成到掩码图像建模的自监督预训练框架中仍然不够明确，主要原因是局部窗口自注意力的局限性。在swin transformer中，给定窗口大小wp，图像被划分为个不重叠的局部窗口，w和h为图片的长和宽，每个窗口包含相同数量的nw个patch，因此可以在每个窗口内并行执行多头自注意力计算。然而，由于掩码图像建模是对输入图像进行随机掩码，掩码后每个窗口内的可见patch数量可能不一致，无法直接进行并行计算。

8、针对这个问题，目前提出了动态规划的方法，将含有不均匀可见patch的窗口分配到不同组，保证每组可见patch的总数相同，然后在每个组内进行带掩码的自注意力计算，整个过程通过矩阵乘法实现并行。然而，这种方法带来的问题是，利用动态规划进行分组计算复杂，同时分组本身也会带来计算损耗。

技术实现思路

1、有鉴于此，本专利技术提供了计算机视觉模型预训练方法、装置、计算机设备及介质，以解决现有技术中使用随机掩码进行局部自注意力计算时计算复杂的问题。

2、第一方面，本专利技术提供了一种计算机视觉模型预训练方法，所述方法包括：获取训练样本和预设掩码比例，所述训练样本中每个样本包括多个图像块；根据所述预设掩码比例将多个图像块随机平均划分得到图像块的分组结果；基于所述分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵，所述stage的数量基于采用的基于局部自注意力的transformer模型确定；采用所述掩码矩阵和采用基于局部自注意力的transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练。

3、本专利技术实施例提供的计算机视觉模型预训练方法，通过采用预设掩码比例对训练样本中的多个图像块随机平均划分得到图像块的分组结果，并基于该分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵，基于掩码矩阵和通过模型得到的注意力矩阵构建掩码注意力矩阵，由此，采用该掩码注意力矩阵进行transformer模型的预训练时，每进行一次自注意力计算，等价于同时处理固定个数带掩码的样本，同时也解决了每个窗口可见patch数量不一致难以并行的问题。由于掩码过程计算量较小，可以忽略不计，因此本专利技术实现了带掩码样本的高效并行计算。

4、在一种可选的实施方式中，根据所述预设掩码比例将多个图像块随机平均划分得到图像块的分组结果，包括：根据所述预设掩码比例确定分组数量；根据所述分组数量将每个样本中的所有图像块进行随机平均划分，每个样本中图像块的分组结果。

5、本实施例中，通过预设掩码比例确定分组数量，通过分组数量进行随机平均划分，实现了通过预设掩码比例对图像块进行随机平均划分的过程。

6、在一种可选的实施方式中，基于所述分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵，所述stage的数量基于采用的基于局部自注意力的transformer模型确定，包括：采用基于局部自注意力的transformer模型确定stage的数量；基于所述分组结果和所述stage的数量确定每个stage下的分组矩阵；根据每个stage下的分组矩阵，构造每个sta本文档来自技高网...

【技术保护点】

1.一种计算机视觉模型预训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述预设掩码比例将多个图像块随机平均划分得到图像块的分组结果，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵，所述stage的数量基于采用的基于局部自注意力的Transformer模型确定，包括：

4.根据权利要求1所述的方法，其特征在于，所述预训练采用的框架包括DATA2VEC模型和MAE模型。

5.根据权利要求4所述的方法，其特征在于，所述DATA2VEC模型包括学生模型和教师模型，当采用DATA2VEC模型进行预训练时，采用所述掩码矩阵和采用基于局部自注意力的Transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练，包括：

6.根据权利要求4所述的方法，其特征在于，当采用MAE模型进行预训练时，采用所述掩码矩阵和采用基于局部自注意力的Transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练，包括：

8.一种计算机视觉模型预训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，分组模块具体用于：根据所述预设掩码比例确定分组数量；根据所述分组数量将每个样本中的所有图像块进行随机平均划分，每个样本中图像块的分组结果。

10.根据权利要求8所述的装置，其特征在于，矩阵构建模块具体用于：采用基于局部自注意力的Transformer模型确定stage的数量；基于所述分组结果和所述stage的数量确定每个stage下的分组矩阵；根据每个stage下的分组矩阵，构造每个stage下基于窗口和基于移动窗口划分的掩码矩阵，其中，划分时将不属于同一组的图像块的注意力置为第一预设值，属于同一组的图像块的注意力置为第二预设值。

11.根据权利要求8所述的装置，其特征在于，所述预训练采用的框架包括DATA2VEC模型和MAE模型。

12.根据权利要求11所述的装置，其特征在于，所述DATA2VEC模型包括学生模型和教师模型，当采用DATA2VEC模型进行预训练时，预训练模块具体用于：基于对所述训练样本进行位置嵌入和注意力计算得到注意力矩阵；基于所述注意力矩阵和所述掩码矩阵构建编码器；基于卷积网络构建解码器；基于所述编码器和解码器构建学生模型，基于所述编码器构建教师模型；采用所述学生模型对教师模型进行参数更新，实现预训练。

13.根据权利要求11所述的装置，其特征在于，当采用MAE模型进行预训练时，预训练模块具体用于：基于对所述训练样本进行位置嵌入和注意力计算得到注意力矩阵；基于所述注意力矩阵和所述掩码矩阵构建编码器；基于卷积网络构建解码器；采用所述编码器和所述解码器构建的模型进行预训练。

14.根据权利要求9所述的装置，其特征在于，所述分组数量采用如下公式确定：

15.一种数据处理方法，其特征在于，所述方法包括：

16.一种数据处理装置，其特征在于，所述装置包括：

17.一种计算机设备，其特征在于，包括：

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的计算机视觉模型预训练方法或权利要求15所述的数据处理方法。

...

【技术特征摘要】

1.一种计算机视觉模型预训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述预设掩码比例将多个图像块随机平均划分得到图像块的分组结果，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵，所述stage的数量基于采用的基于局部自注意力的transformer模型确定，包括：

4.根据权利要求1所述的方法，其特征在于，所述预训练采用的框架包括data2vec模型和mae模型。

5.根据权利要求4所述的方法，其特征在于，所述data2vec模型包括学生模型和教师模型，当采用data2vec模型进行预训练时，采用所述掩码矩阵和采用基于局部自注意力的transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练，包括：

6.根据权利要求4所述的方法，其特征在于，当采用mae模型进行预训练时，采用所述掩码矩阵和采用基于局部自注意力的transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练，包括：

7.根据权利要求2所述的方法，其特征在于，所述分组数量采用如下公式确定：

8.一种计算机视觉模型预训练装置，其特征在于，所述装置包括：

10.根据权利要求8所述的装置，其特征在于，矩阵构建模块具体用于：采用基于局部自注意力的transformer模型确定stage的数量；基于所述分组结果和所述stage的数量...

【专利技术属性】
技术研发人员：王博，张希，王勇，陈江琦，王进，徐康，陈霞，
申请(专利权)人：国网智能电网研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人