一种基于可变形卷积的大规模视觉图像通用模型制造技术

技术编号：37515064 阅读：13 留言：0更新日期：2023-05-12 15:36

本发明专利技术属于计算机视觉技术领域，且公开了一种基于可变形卷积的大规模视觉图像通用模型,包括：模型基础算子DCNv3和基础模型；其中，所述模型基础算子DCNv3包括：共享投射权重、引入多组机制和采样点调制标量归一化；本发明专利技术通过应用和设计DCNv3算子实现小卷积和获取大有效感受野，并且用过自适应空间聚合减缓了卷积的归纳偏置，从而使得网络能够从海量数据中学习到强大而鲁棒的特征；通过所提出的书生模型能够通过简单的缩放规则，使得模型参数范围达到从20M到1B的级别，并且在下游任务中达到同级别模型的最优性能；在同参数量水平的情况下，打破了变换器对视觉大模型的垄断，为图像大模型提供了新的方向。大模型提供了新的方向。大模型提供了新的方向。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于可变形卷积的大规模视觉图像通用模型

[0001]本专利技术属于计算机视觉
，具体为一种基于可变形卷积的大规模视觉图像通用模型。

技术介绍

[0002]近年来视觉变换器ViTs的蓬勃发展推动了计算机视觉领域的性能边界，视觉变换器通过扩大模型参数量和训练数据从而击败了卷积神经网络CNNs；现有技术中，标准的卷积算子缺乏长距离依赖和自适应空间聚合能力，尽管人们早已认识到，具有大的有效感受野(长距离依赖)的模型通常在下游视觉任务中表现更好，但由3
×
3规则卷积堆积的CNN的有效感受野相对较小，即使有了放大的模型，基于CNN的模型仍然不能像ViT那样获得长距离的依赖性，此外，标准卷积是一个静态的算子，具有很强的归纳偏差，包括二维定位、邻域结构、平移不变性等，由于具有高度的归纳特性，由标准卷积组成的模型可能会比ViTs收敛得更快，需要的训练数据也更少，但它也限制了CNN从大量数据中学习更多的通用和稳健模式；传统卷积网络结构缺乏先进组件以及合理的扩展规则，现有的传统CNN模型具有同一范式，即包含7
×
7卷积的茎结构，4个卷积阶段，每个阶段由不同的瓶颈结构组成，主要算子为卷积，归一化通常为批归一化BN，激活函数为ReLU等，这样的组件堆叠能够加速模型的搭建，但也阻碍了模型的多样性和对先进组件的嵌入，此外，EfficientNet、EfficientNetv2提出了基于CNN网络结构的扩展规则，但其参数量应用范围局限在5兆到200兆之间；由此可见在算子层面，传统的CNNs算子缺乏长距离...

【技术保护点】

【技术特征摘要】
1.一种基于可变形卷积的大规模视觉图像通用模型，其特征在于，包括：模型基础算子DCNv3和基础模型；其中，所述模型基础算子DCNv3包括：共享投射权重、引入多组机制和采样点调制标量归一化；所述基础模型包括：基础模块、茎结构层与下采样层、叠加规则和模型缩放规则；基础模块通过茎结构层与下采样层调整特征图的大小，并按照叠加规则和模型缩放规则构建不同尺寸的模型。2.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型，其特征在于：所述共享投射权重指的是与常规卷积DCNv2中的不同采样点具有独立的投射权重，因此其参数大小与采样点总数呈线性关系，采用与位置无关的权重代替分组权重，在不同采样点之间共享投影权重，所有的采样位置依赖性都得以保留。3.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型，其特征在于：所述引入多组机制指的是将空间聚合过程分成若干组，每个组都有独立的采样偏移量，单个DCNv3层的不同组拥有不同的空间聚合模式。4.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型，其特征在于：所述采样点调制标量归一化可将归一化模式设定为逐采样点的柔和指数Softmax归一化。5.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型，其特征在于：所述基础模块采用了更接近ViTs的基础模块，配备了先进组件，包括：GELU、层归一化LN和前馈网络FFN。6.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型，其特征在于：所述茎结构层与下采样层可调整特征图的大小，使其达到不同的尺度，具体方式如下：a、茎结构层放在第一阶段，将输入图像比例缩小4倍，它由两个卷积层、两个LN层和一个GELU层组成，其中两个卷积层的核大小为3，步长为2，填充为1，第一个...

【专利技术属性】
技术研发人员：王文海，代季峰，陈喆，黄振航，李志琦，朱锡洲，胡枭玮，路通，卢乐炜，李鸿生，王晓刚，乔宇，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人