当前位置: 首页 > 专利查询>济南大学专利>正文

基于深度注意力的自适应多尺度视觉特征表达方法及系统技术方案

技术编号:36193875 阅读:17 留言:0更新日期:2022-12-31 21:15
本发明专利技术公开了基于深度注意力的自适应多尺度视觉特征表达方法及系统,包括:获取原始神经网络模型作为SDA网络模块的主干分支,用于分层特征的提取;设计SDA网络模块的轻量化深度注意力分支,用于动态加权分层特征;堆叠多个SDA网络模块构成神经网络,即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法;对自适应多尺度特征表达神经网络SDA

【技术实现步骤摘要】
基于深度注意力的自适应多尺度视觉特征表达方法及系统


[0001]本申请涉及多尺度视觉特征表达
,特别是涉及自适应多尺度视觉特征表达方法及系统。

技术介绍

[0002]由于目标对象的尺寸大小不同,多尺度特征表达与对各种计算机视觉任务具有重要的现实意义,包括图像分类、对象检测、语义分割和实例分割等。因此,多尺度特征表达广泛应用于卷积神经网络(CNN)的设计中,如Res2Net、PyConv和EPSANet。其中,多核卷积是最常用的方法之一,它利用不同的核大小或多核级联提取不同尺度的特征,并对丰富的多尺度信息进行融合。
[0003]虽然这样的多核方法可以感知不同的尺度,但它们往往会迅速增加感受野的大小,这在对小目标对象进行识别时存在缺点。例如,最近提出的EPSANet,它是ResNet的变体神经网络,利用金字塔分割注意力模块取代了3
×
3卷积,提高了多尺度特征表达能力。该模块由若干组具有不同核大小的卷积组成,例如3、5、7和9。因此,这个网络输出由多个不同大小感受野的组成部分构成。3
×
3卷积贡献了最小部分的感受野,在感受野设置方面与ResNet相当。其他具有较大核的卷积增加了感受野的大小。换句话说,EPSANet实现了广泛的有效感受野,范围从相当于ResNet的最小部分开始。
[0004]然而,这种大的感受野更倾向于识别大的目标对象,而忽略小的目标对象。因此,如何设计一个自适应的多尺度神经网络是提取从小到大范围感受野的关键,以适应于不同尺度大小的目标。

技术实现思路

[0005]为了解决现有技术的不足,本申请提供了基于深度注意力的自适应多尺度视觉特征表达方法及系统。
[0006]为实现上述目的,本专利技术一个或多个实施例提供了如下技术方案:第一方面,基于深度注意力的自适应多尺度视觉特征表达方法,包括:获取原始神经网络模型作为SDA网络模块的主干分支,用于分层特征的提取;设计SDA网络模块的轻量化深度注意力分支,用于动态加权分层特征;堆叠多个SDA网络模块构成神经网络,即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法;对自适应多尺度特征表达神经网络SDA

Net进行参数优化,所得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。
[0007]第二方面,一个或多个实施例提供了基于深度注意力的自适应多尺度视觉特征表达系统,包括:主干分支模块,获取原始神经网络模型作为SDA网络模块的主干分支,用于分层特征的提取;
深度注意力分支模块,设计SDA网络模块的轻量化深度注意力分支,用于动态加权分层特征;堆叠模块,堆叠多个SDA网络模块构成神经网络,即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法;优化模块,对自适应多尺度特征表达神经网络SDA

Net进行参数优化,得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。
[0008]第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
[0009]第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
[0010]第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
[0011]与现有技术相比,本申请的有益效果是:1. 解决用于计算机视觉任务中目标尺度大小变化的问题,使得构建的神经网络能够自适应处理不同尺度大小的目标,进而获得更好的性能。为此,本申请提出了基于深度注意力的自适应多尺度视觉特征表达方法,该方法基于深度注意力机制动态选择不同感受野的分层特征,其融合后获得自适应多尺度特征表达;2.本申请构建了一个基于深度维度的注意力机制的新的独立模块,丰富了注意力神经网络的模块家族;3.本申请的深度注意力机制不仅可以独立工作,也可与其他注意力机制联合,包括通道注意力、空间注意力和分支注意力等,获得进一步的性能提升;4.本申请的方法可用于传统的各种CNN框架,这些框架包括ResNet、PyConv、Res2Net、SENet、CBAM和EPSANet等;5.综合的实验证实了本申请的SDA方法在各种CNN框架中收获了ImageNet数据集先进的分类性能,以及COCO数据集先进的目标检测和实例分割性能。
附图说明
[0012]图1为第一个实施例的SDA方法结构图。
[0013]图2为第一个实施例的方法神经网络框架图。
[0014]图3为第一个实施例的方法与几个SOTA多尺度方法在ImageNet

1k数据集上的分类性能对比结果图。
[0015]图4为第一个实施例的方法与几个SOTA注意力方法在ImageNet

1k数据集上的分类性能对比结果图。
[0016]图5为第一个实施例的方法与几个不同方法在COCO数据集上的目标检测对比结果图。
[0017]图6为第一个实施例的方法与几个不同方法在COCO数据集上的实例分割对比结果图。
具体实施方式
[0018]应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0019]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0020]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0021]现有的多尺度解决方案往往关注增加感受野的大小而存在忽略了小感受野的风险。因此,有效地构建自适应性神经网络来识别各种空间尺度的物体是一个具有挑战性的问题。为了解决这个问题,除了现有的注意力维度(如通道、空间和分支),本申请引入了一个新的注意力维度,即深度,并提出一个新颖的有选择的深度注意力网络以全面地处理各种视觉任务中的多尺度物体。具体来说,给定一个神经网络,比如ResNet,它的每个阶段内的块都会输出相同分辨率但具有不同感受野大小的分层特征图。基于这一结构特性,本申请设计了一个分阶段的构建模块,称为SDA,它包括一个主干分支和一个类似SE(Squeeze an本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度注意力的自适应多尺度视觉特征表达方法,其特征是,包括:获取原始神经网络模型作为SDA网络模块的主干分支,用于分层特征的提取;设计SDA网络模块的轻量化深度注意力分支,用于动态加权分层特征;堆叠多个SDA网络模块构成神经网络,即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法;对自适应多尺度特征表达神经网络SDA

Net进行参数优化,所得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。2.如权利要求1所述的方法,其特征是,所述方法还包括:自适应多尺度特征表达神经网络SDA

Net可作为网络主干对输入的图像进行图像分类、目标检测和实例分割。3.如权利要求1所述的方法,其特征是,所述获取原始神经网络模型作为SDA网络模块的主干分支,用于分层特征的提取;还包括:从获取原始神经网络模型的主干分支中间块的输出特征中提取一个特征图序列Z=[Z1,Z2,

,Z
m
]。4.如权利要求1所述的方法,其特征是,设计SDA网络模块的轻量化深度注意力分支,用于动态加权分层特征;具体步骤包括:通过使用元素求和方法来合并主干分支的层次结构特征获得融合特征F;利用GAP对F特征图的空间信息进行聚合,生成全局空间上下文描述符u;u被输入到两个1
×
1卷积中,;将v沿深度维度对齐,通过重塑操作得到v
T
,再采用softmax激活函数实施软加权机制,;在每个SDA模块的末尾,根据输入对象的尺度通过跨块特征进行软加权,自适应融合不同尺度的语义信息。5.如权利要求1所述的方法,其特征是,堆叠多个S...

【专利技术属性】
技术研发人员:郭庆北刘圣勇李忠涛冯志全徐涛田京兰杨晓晖
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1