【技术实现步骤摘要】
基于多尺度特征融合的元学习小样本图像目标检测方法
[0001]本专利技术涉及目标检测技术,尤其涉及小样本目标检测(Few Shot Object Detection)、金字塔网络(Feature Pyramid Networks)、两阶段目标检测网络(Faster
‑
RCNN)、元学习(Meat learning),具体是一种基于多尺度特征融合的元学习小样本图像目标检测方法。
技术介绍
[0002]目前的目标检测算法都依赖于大量带有标注图像用于模型训练,但是在实际的生产环境或者实际任务中,获取大规模标准数据是需要付出很大的人力成本的。而且现实世界中由于数据存在着长尾效应,造成很难获得大量训练模型的数据,因此如何采用小样本的数据集来让模型也能发挥出理想的表现是一个亟需解决且十分热门的研究方向。
[0003]根据国内外最新研究调查发现,解决小样本情况下的目标检测问题有两个核心范式。一种是基于迁移学习的范式,另一种是基于元学习的范式。基于迁移学习的方法分为基训练和微调两个阶段,在基训练阶段,整个模型在有着 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度特征融合的元学习小样本图像目标检测方法,其特征在于,包括如下步骤:1)划分数据集:按照实际任务情况将数据集划分为基类数据集D
‑
base和新类数据集D
‑
novel,基类数据集D
‑
base是指可以获得的大规模的带有标签的数据,新类数据集D
‑
novel是指数据量比较少的数据即小样本数据,其中,在划分基类数据D
‑
base和新类数据D
‑
novel时基类数据集D
‑
base与新类数据集D
‑
novel的交集要为空,即两个集合不能出现相同的数据样本,对于图片数据来说,一张图片只能数据一个集合中,属于基类数据集D
‑
base的类别称之为基类,属于新类数据集D
‑
novel的类别称之为新类,采用公开数据集PASCAL VOC,随机的对数据集进行划分为基类和新类,对于小样本目标检测任务来说,基类和新类的划分为:所有类别:('aeroplane','bicycle','boat','bottle','car','cat','chair','diningtable','dog','horse','person','pottedplant','sheep','train','tvmonitor','bird','bus','cow','motorbike','sofa');基类类别:('aeroplane','bicycle','boat','bottle','car','cat','chair','diningtable','dog','horse','person','pottedplant','sheep','train','tvmonitor');新类类别:('bird','bus','cow','motorbike','sofa'),其中,所有类别20类、基类类别15类、新类类别5类,基类和新类不能有重合类别,基类类别和新类类别之后;2)设计基于多尺度特征融合的元学习小样本目标检测模型:包括:2
‑
1)特征提取:特征提取采用resnet即Residual Networks网络模型,具体采用resnet101网络模型,特征提取的输入是支持图像或查询集图像,输出的是支持集图像特征或查询集图像特征,具体过程为:在对图像进行特征提取之前对支持集图像中的目标进行标注,采用标注方式为:在表示图像的RGB三通道外,再添加一个掩码通道组成四通道,第四通道采用数字1标注出感兴趣对象的边界框,其它位置用0填充,标注完成之后,支持集的图片通道为4,对resent101网络进行修改,要求不仅可以提取3通道的图像,还可以提取4通道的图像,如果输入的图片是支持集,假设维度为(15,224,224,4)其中15表示支持集中有15张图图片,经过特征提取网络之后得到的3个尺度的特征,分别是(15,256,56,56,)、(15,512,28,28)和(15,1024,14,14),这三个特征将会被输入到多尺度特征融合的特征金字塔网络FPN进行多尺度特征融合,如果输入的图像是查询集图像,则安装原有的resnet网络进行特征提取;2
‑
2)多尺度特征融合:FPN网络的输入是经过特征提取网络得到的特征,输出是经过多尺度特征融合的新的图像特征,新特征包含更加丰富的信息,多尺度特征融合是只对支持集特征进行特征融合,经过步骤2
‑
1)后得到三个不同尺度的特征向量(15,256,56,56,)、(15,512,28,28)和(15,1024,14,14),FPN网络将这三个不同尺度的特征图进行特征融合,得到检测同一类别不同尺度的目标,FPN的算法过程如下:2
‑2‑
1)自底向上过程:FPN的自底向上过程采用卷积神经网络CNN实现:在CNN提取图片特征时安照特征图的不同大小分为不同的尺度,每个尺度也称为stage,支持特征共有三个不同的大小,因此有三个不同的stage;2
‑2‑
2)自顶向上和侧向连接过程:自顶向上的过程采用上采样的操作,将小的特征图
放大到大的特征图尺寸,将14*14大小的特征图上采样到28*28大小的特征图,然后再将这两个相同大小的特征图进行融合,FPN还设有侧向连接的结构,经过FPN操作之后维度变成(15,1024,14,14);2
‑
3)候选区域框生成:将图像特征输入到候选框生成网络RPN(Region Proposal Network,简称RPN)中得到图像的候选框,PRN网络的输入是特征图以及输入图像的元信息,元信息包括宽高以及缩放尺寸,输出是多个候选框,RPN网络的具体实现如下:2
‑3‑
1)假设batch size为2,经过resnet101提取得到的查询特征(2,1024,14,14),也就是每次输入两张查询图片,对这两张图片进行目标检测,RPN拿到了查询特征之后,会首先采用锚框生成算法AnchorGenerator生成一个个的锚框,在生成锚框时设置5个不同的大小缩放和3个不同的高宽比例,分别是(2,4,8,16,32)和(0.5,1.0,2.0);2
‑3‑
2)得到锚框之后对这些锚框进行编码操作,从(x1,y1,x2,y2)编码成(x,y,w,h),同时对这些数值进行均值为0、方差为1的归一化操作:2
‑3‑
3)然后采用L1损失对锚框进行回归调整,采用交叉熵损失对锚框进行二分类,判断这个锚框是否包含物体:L1损失:交叉熵损失:Loss=
‑
(y logP+(1
‑
y)log(1
‑
p));2
‑3‑
4)最后采用随机采样算法Random Sampler随机采样的算法具体过程是从得到的锚框中随机采样得到256个锚框作为最后的候选框。2
‑
4)聚合过程:聚合过程将支持特征和查询特征进行融合,支持特征代表了每个类别的信息称之为元信息,经过聚合过程之后,查询特征将会得到包含在支持集中的类别信息,然后将聚合后的查询特征用于后续的网络输入,聚合过程的输入是支持特征和查询特征,输出是带有类别信息的查询特征,将查询特征和支持特征进行聚合得到新的查询特征,这个新的查询特征用于对目标框的边界框回归和分类,聚合过程包括:2
‑4‑
1)Depth Wise Correlation Aggregator聚合:Depth Wise Correlation Aggregator聚合将查询特征和支持特征在深度上进行聚合,把类别有关深度的信息进行聚合,执行流程为:首先对支持特征进行维度换位,输入到聚合函数的支持特征support feat的维度此时为(15,1024,14,14),这是经过了FPN特征融合之后的特征,经过对support feat的维度换位之后,支持特征变为(1024,15,14,14),然后采...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。