一种适用于遥感目标检测任务的自监督预训练方法技术

技术编号:37854247 阅读:6 留言:0更新日期:2023-06-14 22:46
本发明专利技术涉及一种适用于遥感目标检测任务的自监督预训练方法,属于遥感目标检测任务的预训练技术领域。该方法以检测任务数据集的真实目标标注框为基准进行随机多尺度的目标裁剪。对裁剪后所获取的目标级图像切片中的小尺度目标进行重新缩放并拼接,以确保小尺度目标信息在高遮罩率的图像重建任务中被有效地保留,从而促进小尺度目标的检测性能。本发明专利技术的方法有效地避免了在具有高遮罩率的场景级图像重建任务中,由于遥感场景小尺度目标被完全遮罩从而导致小尺度目标无法在预训练过程中得到良好的表征学习从而影响检测效果的问题,同时,本方法通过将图像重建任务与目标检测任务进行对齐,提高了预训练模型对遥感目标检测任务的促进作用。任务的促进作用。任务的促进作用。

【技术实现步骤摘要】
一种适用于遥感目标检测任务的自监督预训练方法


[0001]本专利技术涉及一种基于图像重建任务的预训练方法,具体涉及一种适用于遥感目标检测任务的自监督预训练方法,属于遥感目标检测的预训练


技术介绍

[0002]基于图像重建任务的预训练方法目前已经在计算机视觉领域取得了突飞猛进的发展,该方式可以通过在大量无标注数据上进行自监督的模型预训练以获取具有任务无关性的泛化表征知识。具体而言,图像重建任务是通过将图像随机切分为若干个图像块,根据设定的遮罩率对部分图像块进行随机遮罩,然后通过训练一个自编码器来重建被遮罩部分的像素信息。图像重建任务目前已经在自然场景被证明是一种优秀的自监督预训练代理任务,通过该代理任务获取的表征知识可以有效地迁移到各种下游任务并促进微调性能的提升。
[0003]鉴于图像重建技术在自然场景取得的巨大成功,一些学者开始将基于图像重建任务的预训练方式应用到遥感领域,其中包括利用图像重建任务在无标注遥感数据集上训练具有超大规模模型参数的基础模型,以用于改善遥感领域的各种下游任务的性能。另外,一些工作者也尝试通过收集各种数据源的遥感图像数据为基于图像重建任务的模型预训练制备超大规模的数据集,以确保模型在预训练阶段学习到包含各种遥感场景的数据知识,以实现兼容各种下游任务的能力。同时,也有研究者提出一种跨域知识迁移方式,目的是将现有具有大规模数据量的自然场景数据集学习到的知识以持续预训练的方式迁移到各种遥感下游任务上,避免了收集整理大规模遥感数据集的繁琐工作,其方式具有简洁、有效的特点。
[0004]然而,目前遥感领域中利用的图像重建任务均基于场景级的图像数据。当图像重建任务的随机遮罩率设置较高时,遥感场景复杂的细节信息以及密集排布的小尺度目标很容易在遮罩过程中完全丢失信息,导致无法在预训练阶段通过重建任务学习到对应的目标级表征知识,很明显,这与需要分类及定位各种尺度遥感目标的检测任务产生了严重的任务不对齐问题,从而限制了预训练模型对下游检测任务的促进作用,影响了检测性能。

技术实现思路

[0005]本专利技术的目的是针对现有技术存在的不足和缺陷,为解决场景级图像重建预训练过程无法学习到目标级表征知识从而制约了预训练模型对下游检测任务性能的促进作用,创造性地提出一种适用于遥感目标检测任务的自监督预训练方法,进一步提升检测任务的性能。
[0006]本专利技术方法是通过下述技术方案实现的。
[0007]一种适用于遥感目标检测任务的自监督预训练方法,该方法的步骤包括:
[0008]步骤1,利用图像重建任务在具有百万级数据量的自然场景数据集上对基于Vision Transformer特征提取网络的自编码器网络进行基于图像重建任务的自监督预训
练,以获取具备领域级泛化知识的模型参数;
[0009]其中,基于Vision Transformer特征提取网络的自编码器,包括编码器部分和解码器两个部分,编码器部分采用12层具有多头注意力机制的Transformer Block的网络结构;解码器部分采用8层具有多头注意力机制的Transformer Block的网络结构;
[0010]步骤2,基于下游目标检测任务数据集的真实目标标注框进行随机多尺度的目标裁剪,从而得到目标级的任务相关图像数据;
[0011]步骤3:在步骤2获取的目标级的任务相关图像数据上,首先根据图像尺寸划分为小尺度目标图像数据和非小尺度目标图像数据,然后对小尺度目标图像数据进行统一的重新缩放并进行随机拼接操作;
[0012]步骤4:在步骤3获取的非小尺度目标图像数据以及进行随机拼接操作后的小尺度目标图像数据上,对多类别目标检测数据集中存在的类别样本数量不平衡现象进行样本重采样处理,实现多类别样本的均衡;
[0013]步骤5:使用步骤4进行样本重采样处理后的非小尺度目标图像数据以及小尺度目标图像数据更新步骤1中具备领域级泛化知识的模型参数,完成适用于遥感目标检测任务的自监督预训练。
[0014]所述的步骤2中,进行随机多尺度的目标裁剪的方法为:
[0015]步骤2.1:根据目标检测任务数据集的训练集真实标注,获取所有标注框的中心点坐标(x,y)、目标宽度w和高度;
[0016]步骤2.2:以目标的中心点(x,y)为基准,将目标宽度w和高度随机缩放α倍后得到矩形区域,将得到的矩形区域进行裁剪,以获取目标级图像数据,具体公式如下式(1)所示:
[0017][0018]式(1)中,I
scene
表示场景级的原始遥感图像;N表示该场景级图像上的真实标注框数目。表示第i个标注框的中心点坐标;w
i

i
表示第i个标注框的宽度和高度;α表示随机缩放因子,其取值范围为[3,5];I
object
表示最终获取的目标级图像数据;Crop(
·
)表示裁剪操作;i=1,2,3,

,N;
[0019]所述的步骤3中,根据图像尺寸划分为小尺度目标图像数据和非小尺度目标图像数据的方法为:
[0020]步骤3.1:筛选小尺度目标图像数据;
[0021]首先,设置小尺度目标图像的尺寸阈值β,即β=80
×
80分辨率,根据尺寸阈值β对步骤2所获取的目标级图像数据进行筛选,将大于该阈值的非小尺度目标图像数据直接用于步骤4的处理;将小于该阈值的小尺度目标图像数据进行步骤3.2、3.3的处理;
[0022]对小尺度目标图像数据进行统一的重新缩放并进行随机拼接操作的方法为:
[0023]步骤3.2:对小尺度目标进行重新缩放。
[0024]由于预训练过程中,小尺度目标图像数据尺寸小,不满足预训练网络的输入尺寸,因此将其进行重新缩放,同时,考虑到微小目标插值到224
×
224的分辨率会出现像素失真的问题,因此为了避免失真问题影响到基于图像重建任务的预训练过程,对小尺度目标图像数据统一缩放到适中尺度,即112
×
112分辨率。
[0025]步骤3.3:对重新缩放后的小尺度目标进行随机拼接操作。
[0026]由于小尺度目标的宽度和高度值小,即使通过步骤2.2的α随机缩放因子进行多尺度上下文信息获取,小尺度目标的上下文信息也是有限的。因此,为了能够进一步丰富小目标上下文信息,同时,考虑将112
×
112的分辨率合理适配到224
×
224的预训练过程的输入分辨率上,采用了随机拼接的方式,具体拼接方式为随机选取4张同类别的图像并以2行2列的组合方式进行拼接;
[0027]所述的步骤4中,进行样本重采样处理的方法为:
[0028]由于多类别目标检测数据集中存在严重的类别样本不平衡问题,直接参照目标真实标注框获取目标级图像数据后,类别样本不平衡问题仍然存在,从而易导致在预训练过程中对某些具有高数据量比例的类别目标过度学习,以造成表征学习不合理。因此,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于遥感目标检测任务的自监督预训练方法,其特征在于该方法的步骤包括:步骤1,在自然场景数据集上对基于Vision Transformer特征提取网络的自编码器网络进行基于图像重建任务的自监督预训练,以获取具备领域级泛化知识的模型参数;步骤2,对目标检测任务数据集的真实目标标注框进行随机多尺度的目标裁剪,得到目标级的任务相关图像数据;步骤3:在步骤2获取的目标级的任务相关图像数据上,首先根据图像尺寸划分为小尺度目标图像数据和非小尺度目标图像数据,然后对小尺度目标图像数据进行统一的重新缩放并进行随机拼接操作;步骤4:在步骤3获取的非小尺度目标图像数据以及进行随机拼接操作后的小尺度目标图像数据上,对多类别目标检测数据集中存在的类别样本数量不平衡现象进行样本重采样处理,实现多类别样本数目的均衡;步骤5:使用步骤4进行样本重采样处理后的非小尺度目标图像数据以及小尺度目标图像数据更新步骤1中具备领域级泛化知识的模型参数,完成适用于遥感目标检测任务的自监督预训练。2.根据权利要求1所述的一种适用于遥感目标检测任务的自监督预训练方法,其特征在于:所述的步骤1中,利用图像重建任务在具有百万级数据量的自然场景数据集上对基于Vision Transformer特征提取网络的自编码器网络进行基于图像重建任务的自监督预训练,以获取具备领域级泛化知识的模型参数;其中,基于Vision Transformer特征提取网络的自编码器,包括编码器部分和解码器两个部分,编码器部分采用12层具有多头注意力机制的Transformer Block的网络结构;解码器部分采用8层具有多头注意力机制的Transformer Block的网络结构。3.根据权利要求2所述的一种适用于遥感目标检测任务的自监督预训练方法,其特征在于:所述的步骤2中,进行随机多尺度的目标裁剪的方法为:步骤2.1:根据目标检测任务数据集的训练集真实标注,获取所有标注框的中心点坐标(x,y)、目标宽度w和高度;步骤2.2:以目标的中心点(x,y)为基准,将目标宽度w和高度随机缩放α倍后得到矩形区域,将得到的矩形区域进...

【专利技术属性】
技术研发人员:陈禾张桐陈亮庄胤王冠群
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1