一种用于目标检测的自适应多形状卷积方法技术

技术编号:35413526 阅读:32 留言:0更新日期:2022-11-03 11:10
本发明专利技术公开了一种用于目标检测的自适应多形状卷积方法,目的是解决传统卷积核无法变化形状、无法匹配目标几何形变、同一网络层感受野单一以及会提取除目标外无效信息特征的缺点。本发明专利技术方法主要是先学习核掩模,然后利用核掩模进行自适应多形状卷积,最后利用梯度反向传播更新核掩模。本发明专利技术自适应多形状卷积方法使卷积可以适应目标几何形状的变化,增强了卷积网络的语义提取能力和特征表达能力,而且相对于标准卷积只增加了很少的参数量和运算复杂度,它可以被添加到任意目标检测模型的主干网络中,只需同等替换其网络中的3x3、5x5等标准的卷积即可,可以大幅提高网络模型目标检测平均检测精度。检测平均检测精度。检测平均检测精度。

【技术实现步骤摘要】
一种用于目标检测的自适应多形状卷积方法


[0001]本专利技术属于计算机视觉领域,具体涉及一种用于目标检测的自适应多形状卷积方法。

技术介绍

[0002]卷积神经网络是计算机视觉领域重要的方法,也是人工智能热门的研究领域,它在处理各种特征提取任务中发挥非常重要的作用。卷积神经网络极大地加快了计算机视觉任务的发展,包括图像分类、目标检测和目标分割。卷积层的深层叠加能够模拟复杂的函数,卷积操作可以提取图像的各类语义特征,梯度反向传播使网络能学习更新大量参数。
[0003]卷积神经网络中不同的卷积核和卷积方式让其具备了强大的特征特取能力。标准的卷积有不同的卷积核大小,如3x3、1x1卷积核。分组卷积将将输入分为g组,则相应的参数量可以减少1/g,可以大幅减少网络的参数。扩张卷积扩大了核中每两个相邻权重之间的距离,让权重分布离散,扩大了原本卷积核的感受野。反卷积是一种上采样操作,用于扩大特征图。
[0004]但是,目前上述的卷积方式只能以矩形区域去覆盖目标主体,然而大多数目标都具有不规则的几何形状。这样在卷积提取特征过程中卷积核不只提取了物体的特征,也提取了无效的背景,显然这是非常低效的。

技术实现思路

[0005]本专利技术的目的在于要解决目前卷积核无法进行多形状的变化,导致卷积提取特征低效的缺点。本专利技术提供一种用于目标检测的自适应多形状卷积方法,该方法让卷积核具有形状变化的能力,从而更高效的提取目标主体特征,消除背景等无关信息对特征提取的不利影响。
[0006]本专利技术为解决上述问题,通过一种用于目标检测的自适应多形状卷积方法的技术方案予以实现,包括以下步骤:
[0007]步骤一、通过标准卷积操作和argmax操作学习得到核掩模,则核掩模计算公式如下:
[0008]m(x)=argmax(conv(x))
[0009]其中,m(x)表示核掩模,x是输入的特征图,conv是标准卷积操作,由两个2D卷积和一个ReLU函数构成;第一个2D卷积用于降维,卷积核大小为3x3,输入通道数为C,输出通道数为M,stride为1,padding为1,bias为True;随后是ReLU函数,用于增加该模块的非线性表达能力;第二个2D卷积给通道升维,学习到最终的核掩模,卷积核大小为1x1,输入通道数为M,输出通道数为K,stride为2,padding为0,bias为True;其中,M为自适应多形状卷积核的高宽和,K为高宽积;最后,学习到的核掩模的shape为K*H/2*W/2,其中H、W为输入特征图宽高;
[0010]argmax操作由sigmoid函数和阈值化处理组成,得到的核掩模每点的取值为0或1,
用公式表示为:
[0011][0012]其中,t为超参数,默认为0.25,s为conv(x)的结果,为sigmoid函数;通过sigmoid函数和阈值化处理的技巧实现argmax操作,目的是防止直接进行argmax操作导致梯度的丢失,无法进行核掩模参数的反向传播更新;
[0013]步骤二、利用学习到的核掩模进行自适应多形状卷积,用公式表示如下:
[0014][0015]其中,
·
表示点乘操作;w是标准卷积核,m是核掩模,x为输入特征图,y为输出特征图;K为卷积采样点数目,在3x3自适应卷积中K=9;po是特征图上的像素点坐标,pk是卷积核上的坐标点;
[0016]若输入特征图大小为W*H,自适应多形状卷积核和标准卷积核的stride为2,自适应多形状卷积在输入特征图中的卷积采样点数与核掩模高宽相乘的数目H/2*W/2相同,自适应多形状卷积在特征图中不同位置进行卷积前,取核掩模相应坐标点在K个通道上的值点乘标准卷积核的K个权重得到新的具有形状变化的卷积核,然后再将其与采样点周围K个像素值相乘后累加得到po点的自适应多形状卷积结果;可见,在stride为2的自适应多形状卷积中,一个W*H大小的特征图对应着W/2*H/2个形状不同的卷积核;而在标准卷积中,一个特征图只使用1种形状卷积核;
[0017]步骤三、对核掩模进行反向传播更新,利用核掩模进行自适应多形状卷积前向传播后,需要根据梯度反向传播更新参数,学习到更合适卷积采样点的核掩模,自适应多形状卷积结果关于核掩模的梯度公式如下:
[0018][0019]其中,w是标准卷积核,m是核掩模,x为输入特征图,y为输出特征图,K为卷积采样点数目,po是特征图上的像素点坐标,pk是卷积核上的坐标点;
[0020]核掩模由标准卷积和argmax操作学习得到,则其关于输入特征图x的梯度公式如下:
[0021][0022]其中,x为输入特征图,m(x)为核掩模,conv(x)为标准卷积操作结果;
[0023]根据上述梯度公式对自适应多形状卷积进行反向传播更新,最终可学习到最合适卷积采样点的核掩模;
[0024]步骤四、将训练数据集输入基于步骤一、二、三得到的自适应多形状卷积的目标检测网络模型进行训练;所述的目标检测网络模型包括Faster RCNN网络模型;
[0025]步骤五、将测试数据集数据输入到训练好的目标检测网络模型,得到目标检测的结果。
[0026]本专利技术的有益效果为:本专利技术所设计的方法,使用可学习的核掩实现了自适应多形状的卷积核,它解决了标准卷积核形状无法适应目标变化的缺点,实现了卷积核的可变感受野,使得对目标区域的卷积贴合目标本身,让卷积网络有更加强大的语义提取和特征表达能力。采用卷积网络学习到核掩模,也使自适应多形状的卷积相对于传统标准卷积只增加了几乎可以忽略的模型运算量。与标准卷积核相比,它同样具有权重共享、稀疏连接、平移等变的优异性质。
附图说明
[0027]图1是本专利技术的自适应多形状卷积整体流程图;
[0028]图2是本专利技术的自适应多形状卷积运算过程图;
[0029]图3是本专利技术的自适应多形状在ResNet 50残差模块中的结构图;
[0030]图4是本专利技术的自适应多形状卷积与标准卷积的对比图。
具体实施方式
[0031]下面结合附图和具体实施方式对本专利技术作详细说明。具体步骤如下:
[0032]步骤一:准备目标检测数据集,训练集采用PASCALVOC 2007trainval和2012trainval的并集,分别包含5011张图片和11540张图片,共标注出12608个和27450个物体。验证集采用PASCALVOC 2007test,包含4952张图片和12032个物体。数据集共有20个类别,输入图片大小为512x512。
[0033]步骤二:搭建基本目标检测模型,检测算法模型采用Faster R

CNN,neck采用FPN,backbone使用ResNet

50模型。Faster R

CNN是当下最优秀的二阶段目标检测算法之一,使用RPN网络生成候选框,可以真正实现端到端的目标检测框架。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于目标检测的自适应多形状卷积方法,其特征在于包括以下步骤:步骤一、通过标准卷积操作和argmax操作学习得到核掩模,则核掩模计算公式如下:m(x)=argmax(conv(x))其中,m(x)表示核掩模,x是输入的特征图,conv是标准卷积操作,由两个2D卷积和一个ReLU函数构成;第一个2D卷积用于降维,卷积核大小为3x3,输入通道数为C,输出通道数为M,stride为1,padding为1,bias为True;随后是ReLU函数,用于增加该模块的非线性表达能力;第二个2D卷积给通道升维,学习到最终的核掩模,卷积核大小为1x1,输入通道数为M,输出通道数为K,stride为2,padding为0,bias为True;其中,M为自适应多形状卷积核的高宽和,K为高宽积;最后,学习到的核掩模的shape为K*H/2*W/2,其中H、W为输入特征图宽高;argmax操作由sigmoid函数和阈值化处理组成,得到的核掩模每点的取值为0或1,用公式表示为:其中,t为超参数,默认为0.25,s为conv(x)的结果,为sigmoid函数;通过sigmoid函数和阈值化处理的技巧实现argmax操作,目的是防止直接进行argmax操作导致梯度的丢失,无法进行核掩模参数的反向传播更新;步骤二、利用学习到的核掩模进行自适应多形状卷积,用公式表示如下:其中,
·
表示点乘操作;w是标准卷积核,m是核掩模,x为输入特征图,y为输出特征图;K为卷积采样点数目,在3x3自适应卷积中K=9;po是特征图上的像素点坐标,pk是卷积核...

【专利技术属性】
技术研发人员:韩高格唐晶磊张连跃许忠民黄炜
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1