当前位置: 首页 > 专利查询>武汉大学专利>正文

一种面向高分辨率光学遥感图像目标检测的自监督学习方法技术

技术编号:34772306 阅读:18 留言:0更新日期:2022-08-31 19:36
本发明专利技术公开了一种面向高分辨率光学遥感图像目标检测的自监督学习方法,通过设计针对遥感图像目标特性的一系列预测任务,在通用的图像级特征的自监督学习的基础上添加了对于目标级特征的自监督学习。融合了高分辨率光学遥感图像地物目标空间敏感、旋转敏感以及尺度不变性的主要特点,优化网络对于目标特征的提取能力,更好的适配下游的遥感图像目标检测任务。相对于通用的基于图像级特征的自监督学习方法,本发明专利技术公开的方法能够充分地挖掘更加细粒的目标级别的特征。本发明专利技术可以有效地应用到基于深度学习的遥感图像的目标检测任务中去,提高检测的性能。提高检测的性能。提高检测的性能。

【技术实现步骤摘要】
一种面向高分辨率光学遥感图像目标检测的自监督学习方法


[0001]本专利技术属于计算机视觉领域,特别涉及一种面向高分辨率光学遥感图像目标检测的自监督学习方法。

技术介绍

[0002]遥感图像目标检测是遥感精细解译领域的重要课题之一,通过自动化分析遥感影像中的目标数量、类型和位置,可以为专家和研究人员提供有价值的遥感情报。由于遥感图像标注成本极高,没有自然图像中类似于ImageNet级别的数据集作为基础数据集来得到一个好的遥感图像特征提取器。目前,遥感目标检测通常使用在ImageNet分类数据集上预训练的模型参数来初始化特征提取器,二者使用的数据存在着巨大的语义差异,会在一定程度上影响检测性能。
[0003]自监督学习旨在从大量无标注的样本数据中挖掘潜在的语义关联信息,是一种有效的特征学习手段,能够一定程度上缓解标注数据量对于深度学习网络性能的限制。采用自监督学习的方法在大量无标注的遥感图像上进行预训练,可以得到适合遥感图像的特征提取器。然而目前的自监督学习方法大多是基于图像级别的特征进行训练,对于遥感图像目标检测任务而言,更加注重的是目标级别的特征细粒度。加之遥感图像中可能存在大量的相似地物目标,图像级别的自监督训练往往不能很好地细化目标特征,对下游的检测任务产生负面的影响。因此,需要设计一种面向高分辨率光学遥感图像目标检测的自监督学习方法。

技术实现思路

[0004]经过研究发现,自监督学习任务和目标检测任务的任务类型无法完全适配,通用的自监督学习任务只是针对图像级的特征表示进行优化训练,而目标检测任务需要更加细致的目标级别的特征,直接的自监督方法训练好的特征表征迁移到目标检测任务中去,不能达到很好的迁移效果。
[0005]为解决上述技术问题,本专利技术结合图像级的自监督学习和目标级的自监督学习,根据高分辨率光学遥感图像目标具有的空间敏感性、旋转敏感性以及尺度不变性特点,设计了针对高分辨率光学遥感图像目标检测任务的自监督学习框架,结合一系列的预测任务,优化自监督学习训练的图像表征。
[0006]本专利技术的系统所采用的技术方案是:一种面向高分辨率光学遥感图像目标检测的自监督学习方法,包括:
[0007]步骤1,利用异源高分辨率光学卫星影像构建地理坐标配准的图像对,作为自监督网络的输入图像对,对输入的成对图像做同步的随机裁剪和旋转,生成关联视图对;
[0008]步骤2,采用特征编码器提取关联视图对的特征,并且构建特征金字塔,在特征金字塔的每一个层级都接两路输出,一路经过全局平均池化输出图像级特征,另一路经过1
×
1的卷积保留原尺寸,用于目标级的自监督学习;
[0009]步骤3,利用上述图像级特征生成投影向量,并通过两个视图的投影向量之间的相互预测进行图像级的自监督训练;
[0010]步骤4,在关联视图对中生成K对关联的基础锚框,对基础锚框添加中心点抖动和随机的旋转,生成关联的增强锚框对;
[0011]步骤5,在用于目标级自监督学习的特征图上对于增强锚框的特征进行旋转的感兴趣区域对齐,之后组合成对的增强锚框的特征,预测增强锚框对之间的重叠率,中心距离以及旋转角度,进行目标级的自监督训练。
[0012]进一步的,步骤1的具体实现方式如下;
[0013]下载来自不同卫星的高分辨率光学卫星影像对,包括谷歌卫星地图,必应地图、ARCGIS、天地图,裁切成小尺寸的遥感图像对I
i
和I

i
,成对的图像之间是精确配准的;对异源且配准的图像对I
i
和I

i
,在图像范围内随机选取面积占比30%~100%的正方形区域,以该区域为边界同时裁剪两幅图像,获得成对的视图x
i
和x

i
,对于裁剪到的视图对,两个视图独立地在[0
°
,360
°
)范围内选取旋转增强角度α
i
和α

i
,统一缩放至224
×
224像素大小,得到最终的关联视图对v
i
和v

i

[0014]进一步的,步骤2的具体实现方式如下;
[0015]特征编码器的选择包括ResNet,VGG;以一张视图v
i
为例,特征编码器选取ResNet,ResNet输出的5个阶段特征图中的4个特征图{C2,C3,C4,C5}经过1
×
1的卷积得到之后每个层级的特征图分为两条支路,一条支路经过全局平均池化得到{m2,m3,m4,m5},再经过全连接层输出{p2,p3,p4,p5}特征向量,用于后续的图像级自监督;另一条支路经过1
×
1的卷积输出用于后续的目标级自监督;同理,对于视图v

i
,两路特征输出为{p
′2,p
′3,p
′4,p
′5}和
[0016]进一步的,步骤3的具体实现方式如下;
[0017]利用步骤02中通过特征编码器提取到的用于图像级自监督的特征,再通过特征投影器,得到两个视图的特征投影向量,之后采用对比自监督学习BYOL架构,经过一个由多层感知机构成的特征预测器进行相互预测,利用预测的均方误差作为损失函数,对其中一条支路的参数进行反向传播更新参数,另一条支路的参数是前述支路参数的指数移动平均。
[0018]进一步的,步骤4中所述锚框对的生成步骤如下:
[0019]步骤41,选取成对视图中的一张,根据卷积神经网络提取出的特征图,在通道维度进行叠加,得到特征激活热力图;
[0020]步骤42,在特征激活热力图上寻找响应最高的点,加入候选列表,同时抑制该点邻域周围的响应强度;
[0021]步骤43,迭代执行步骤42中的最大值选取

邻域响应抑制操作,将每次选取的带点加入候选列表,直至列表中元素个数达到K个;
[0022]步骤44,根据选取的K个候选点,将图像中的区域按照欧式距离最近邻原则分配为K个区域,在各个区域内以候选点为中心选取最大内接正方形作为基础锚框;
[0023]步骤45,根据视图对之间的变换关系找到另一张视图中相对应的基础锚框,对于基础锚框对添加中心点抖动和随机的旋转,生成关联的增强锚框对。
[0024]进一步的,特征激活热力图的表达式为;
[0025][0026]其中,C表示特征图的通道数量,upsample(*)表示将对应的特征图采用双线性差值法进行上采样,采样倍数为2
i
‑2;
[0027]在特征激活热力图M
axt
上寻找响应最高的点Q
(0)
,其对应的坐标记作(x0,y0),将其加入候选列表,并基于该点抑制周围领域的响应强度;定义Q
(0)
在空间中的r

邻域为与其欧氏距离不超过r的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高分辨率光学遥感图像目标检测的自监督学习方法,其特征在于,包括以下步骤:步骤1,利用异源高分辨率光学卫星影像构建地理坐标配准的图像对,作为自监督网络的输入图像对,对输入的成对图像做同步的随机裁剪和旋转,生成关联视图对;步骤2,采用特征编码器提取关联视图对的特征,并且构建特征金字塔,在特征金字塔的每一个层级都接两路输出,一路经过全局平均池化输出图像级特征,另一路经过1
×
1的卷积保留原尺寸,用于目标级的自监督学习;步骤3,利用上述图像级特征生成投影向量,并通过两个视图的投影向量之间的相互预测进行图像级的自监督训练;步骤4,在关联视图对中生成K对关联的基础锚框,对基础锚框添加中心点抖动和随机的旋转,生成关联的增强锚框对;步骤5,在用于目标级自监督学习的特征图上对于增强锚框的特征进行旋转的感兴趣区域对齐,之后组合成对的增强锚框的特征,预测增强锚框对之间的重叠率,中心距离以及旋转角度,进行目标级的自监督训练。2.根据权利要求1所述的方法,其特征在于:步骤1的具体实现方式如下;下载来自不同卫星的高分辨率光学卫星影像对,包括谷歌卫星地图,必应地图、ARCGIS、天地图,裁切成小尺寸的遥感图像对I
i
和I

i
,成对的图像之间是精确配准的;对异源且配准的图像对I
i
和I

i
,在图像范围内随机选取面积占比30%~100%的正方形区域,以该区域为边界同时裁剪两幅图像,获得成对的视图x
i
和x

i
,对于裁剪到的视图对,两个视图独立地在[0
°
,360
°
)范围内选取旋转增强角度α
i
和α

i
,统一缩放至224
×
224像素大小,得到最终的关联视图对v
i
和v

i
。3.根据权利要求1所述的方法,其特征在于:步骤2的具体实现方式如下;特征编码器的选择包括ResNet,VGG;以一张视图v
i
为例,特征编码器选取ResNet,ResNet输出的5个阶段特征图中的4个特征图{C2,C3,C4,C5}经过1
×
1的卷积得到之后每个层级的特征图分为两条支路,一条支路经过全局平均池化得到{m2,m3,m4,m5},再经过全连接层输出{p2,p3,p4,p5}特征向量,用于后续的图像级自监督;另一条支路经过1
×
1的卷积输出用于后续的目标级自监督;同理,对于视图v

i
,两路特征输出为{p
′2,p
′3,p
′4,p
′5}和4.根据权利要求1所述的方法,其特征在于:步骤3的具体实现方式如下;利用步骤02中通过特征编码器提取到的用于图像级自监督的特征,再通过特征投影器,得到两个视图的特征投影向量,之后采用对比自监督学习BYOL架构,经过一个由多层感知机构成的特征预测器进行相互预测,利用预测的均方误差作为损失函数,对其中一条支路的参数进行反向传播更新参数,另一条支路的参数是前述支路参数的指数移动平均。5.根据权利要求3所述的方法,其特征在于:步骤4中所述锚框对的生成步骤如下:步骤41,选取成对视图中的一张,根据卷积神经网络提取出的特征图,在通道维度进行叠加,得到特征激活热力图;步骤42,在特征激活热力图上寻找响应最高的点,加入候选列表...

【专利技术属性】
技术研发人员:杨文张瑞祥郭浩文余淮夏桂松
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1