一种基于可变形卷积的大规模视觉图像通用模型制造技术

技术编号:37515064 阅读:13 留言:0更新日期:2023-05-12 15:36
本发明专利技术属于计算机视觉技术领域,且公开了一种基于可变形卷积的大规模视觉图像通用模型,包括:模型基础算子DCNv3和基础模型;其中,所述模型基础算子DCNv3包括:共享投射权重、引入多组机制和采样点调制标量归一化;本发明专利技术通过应用和设计DCNv3算子实现小卷积和获取大有效感受野,并且用过自适应空间聚合减缓了卷积的归纳偏置,从而使得网络能够从海量数据中学习到强大而鲁棒的特征;通过所提出的书生模型能够通过简单的缩放规则,使得模型参数范围达到从20M到1B的级别,并且在下游任务中达到同级别模型的最优性能;在同参数量水平的情况下,打破了变换器对视觉大模型的垄断,为图像大模型提供了新的方向。大模型提供了新的方向。大模型提供了新的方向。

【技术实现步骤摘要】
一种基于可变形卷积的大规模视觉图像通用模型


[0001]本专利技术属于计算机视觉
,具体为一种基于可变形卷积的大规模视觉图像通用模型。

技术介绍

[0002]近年来视觉变换器ViTs的蓬勃发展推动了计算机视觉领域的性能边界,视觉变换器通过扩大模型参数量和训练数据从而击败了卷积神经网络CNNs;现有技术中,标准的卷积算子缺乏长距离依赖和自适应空间聚合能力,尽管人们早已认识到,具有大的有效感受野(长距离依赖)的模型通常在下游视觉任务中表现更好,但由3
×
3规则卷积堆积的CNN的有效感受野相对较小,即使有了放大的模型,基于CNN的模型仍然不能像ViT那样获得长距离的依赖性,此外,标准卷积是一个静态的算子,具有很强的归纳偏差,包括二维定位、邻域结构、平移不变性等,由于具有高度的归纳特性,由标准卷积组成的模型可能会比ViTs收敛得更快,需要的训练数据也更少,但它也限制了CNN从大量数据中学习更多的通用和稳健模式;传统卷积网络结构缺乏先进组件以及合理的扩展规则,现有的传统CNN模型具有同一范式,即包含7
×
7卷积的茎结构,4个卷积阶段,每个阶段由不同的瓶颈结构组成,主要算子为卷积,归一化通常为批归一化BN,激活函数为ReLU等,这样的组件堆叠能够加速模型的搭建,但也阻碍了模型的多样性和对先进组件的嵌入,此外,EfficientNet、EfficientNetv2提出了基于CNN网络结构的扩展规则,但其参数量应用范围局限在5兆到200兆之间;由此可见在算子层面,传统的CNNs算子缺乏长距离依赖和自适应空间聚合能力。

技术实现思路

[0003]本专利技术的目的在于提供一种基于可变形卷积的大规模视觉图像通用模型,以解决上述
技术介绍
中提出的问题。
[0004]为了实现上述目的,本专利技术提供如下技术方案:一种基于可变形卷积的大规模视觉图像通用模型,包括:模型基础算子DCNv3和基础模型;
[0005]其中,所述模型基础算子DCNv3包括:共享投射权重、引入多组机制和采样点调制标量归一化;
[0006]所述基础模型包括:基础模块、茎结构层与下采样层、叠加规则和模型缩放规则;
[0007]基础模块通过茎结构层与下采样层调整特征图的大小,并按照叠加规则和模型缩放规则构建不同尺寸的模型。
[0008]优选地,所述共享投射权重指的是与常规卷积DCNv2中的不同采样点具有独立的投射权重,因此其参数大小与采样点总数呈线性关系,采用与位置无关的权重代替分组权重,在不同采样点之间共享投影权重,所有的采样位置依赖性都得以保留。
[0009]优选地,所述引入多组机制指的是将空间聚合过程分成若干组,每个组都有独立的采样偏移量,单个DCNv3层的不同组拥有不同的空间聚合模式。
[0010]优选地,所述采样点调制标量归一化可将归一化模式设定为逐采样点的柔和指数
Softmax归一化。
[0011]优选地,所述基础模块采用了更接近ViTs的基础模块,配备了先进组件,包括:GELU、层归一化LN和前馈网络FFN。
[0012]优选地,:所述茎结构层与下采样层可调整特征图的大小,使其达到不同的尺度,具体方式如下:
[0013]a、茎结构层放在第一阶段,将输入图像比例缩小4倍,它由两个卷积层、两个LN层和一个GELU层组成,其中两个卷积层的核大小为3,步长为2,填充为1,第一个卷积层的输出通道为第二个卷积层的一半;
[0014]b、下采样层由一个3
×
3的卷积组成,跨度为2,填充为1,然后是一个LN层,它位于茎结构层与下采样层之间,用于对输入特征图进行2倍的下采样。
[0015]优选地,所述叠加规则包括A模块堆叠规则、B模块堆叠规则和堆叠模式,其中:
[0016]A模块堆叠规则是后三个阶段的通道数C
i
由第一阶段的通道数C1决定,即C
i
=2
i
‑1C1;
[0017]B模块堆叠规则是各模块组号与各阶段的通道数对应,即G
i
=C
i
/C


[0018]堆叠模式固定为“AABA”,即第1、2和4阶段的模块堆叠数是相同的L1=L2=L4,并且不大于第3阶段L1≤L3。
[0019]优选地,所述模型缩放规则指的是基于约束条件下的最优模型,规范化了网络模型的两个缩放维度,即深度D模块堆叠数和宽度C通道数,利用限制因子α和β沿着复合系数对深度和宽度进行缩放,即其中
[0020]优选地,一种基于可变形卷积的大规模视觉图像通用模型,包括如下步骤:
[0021]S1、通过对DCNv2算子增加共享投射权重、引入多组机制和采样点调制标量归一化而构建的稀疏动态算子DCNv3;
[0022]S2、利用DCNv3算子预测采样偏置和调制尺度进而结合GELU、LN和FFN等组件构建了基础模块;
[0023]S3、根据基础模块、茎结构层与下采样层和叠加规则构建了基础模型;
[0024]S4、根据参数缩放规则设计了书T/S/B/L/XL/H系列模型。
[0025]本专利技术的有益效果如下:
[0026]本专利技术通过应用和设计DCNv3算子实现小卷积和获取大有效感受野,并且用过自适应空间聚合减缓了卷积的归纳偏置,从而使得网络能够从海量数据中学习到强大而鲁棒的特征,此外,通过设计茎和主干模块并适配模型扩展规则,实现了模型的有效扩大和多任务精度提升;通过设计动态稀疏卷积算子,达到实现全局注意力效果的同时不过多浪费计算和存储资源,实现高效训练;通过所提出的模型能够通过简单的缩放规则,使得模型参数范围达到从20M到1B的级别,并且在下游任务中达到同级别模型的最优性能;在同参数量水平的情况下,打破了变换器对视觉大模型的垄断,为图像大模型提供了新的方向。
附图说明
[0027]图1为本专利技术模型算子的新旧范式对比示意图;
[0028]图2为本专利技术表示全局注意力机制实验效率内存开销示意图;
[0029]图3为本专利技术表示局部注意力机制示意图;
[0030]图4为本专利技术表示大型密集卷积核示意图;
[0031]图5为本专利技术表示动态稀疏卷积核示意图;
[0032]图6为本专利技术模型整体网络结构示意图,图中左侧为输入特征的维度变化,中间部分表示模型真团体结构,右侧为主要组件的具体结构,“口”指代图像特征尺寸(高度宽度以及特征层数)示意图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]如图1至图6所示,本专利技术实施例提供了一种基于可变形卷积的大规模视觉图像通用模型,包括:模型基础算子D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可变形卷积的大规模视觉图像通用模型,其特征在于,包括:模型基础算子DCNv3和基础模型;其中,所述模型基础算子DCNv3包括:共享投射权重、引入多组机制和采样点调制标量归一化;所述基础模型包括:基础模块、茎结构层与下采样层、叠加规则和模型缩放规则;基础模块通过茎结构层与下采样层调整特征图的大小,并按照叠加规则和模型缩放规则构建不同尺寸的模型。2.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型,其特征在于:所述共享投射权重指的是与常规卷积DCNv2中的不同采样点具有独立的投射权重,因此其参数大小与采样点总数呈线性关系,采用与位置无关的权重代替分组权重,在不同采样点之间共享投影权重,所有的采样位置依赖性都得以保留。3.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型,其特征在于:所述引入多组机制指的是将空间聚合过程分成若干组,每个组都有独立的采样偏移量,单个DCNv3层的不同组拥有不同的空间聚合模式。4.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型,其特征在于:所述采样点调制标量归一化可将归一化模式设定为逐采样点的柔和指数Softmax归一化。5.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型,其特征在于:所述基础模块采用了更接近ViTs的基础模块,配备了先进组件,包括:GELU、层归一化LN和前馈网络FFN。6.根据权利要求1所述的一种基于可变形卷积的大规模视觉图像通用模型,其特征在于:所述茎结构层与下采样层可调整特征图的大小,使其达到不同的尺度,具体方式如下:a、茎结构层放在第一阶段,将输入图像比例缩小4倍,它由两个卷积层、两个LN层和一个GELU层组成,其中两个卷积层的核大小为3,步长为2,填充为1,第一个...

【专利技术属性】
技术研发人员:王文海代季峰陈喆黄振航李志琦朱锡洲胡枭玮路通卢乐炜李鸿生王晓刚乔宇
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1