一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法技术

技术编号:34011033 阅读:16 留言:0更新日期:2022-07-02 14:35
本发明专利技术公开了一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法,该方法使用去冗余信息后的判别表示来进行跨视角地理图像检索;利用变分蒸馏技术,将特征提取模块所提取得到的特征,通过信息瓶颈模块压缩特征得到低维的图像表示,利用变分蒸馏损失和交叉熵分类损失来约束低维的图像表示保留更多的预测信息,达到去冗余信息的目的;最终得到低维的,具有判别性的图像表示作为检索特征,完成了提高检索结果准确性和加快检索速度的目标。结果准确性和加快检索速度的目标。结果准确性和加快检索速度的目标。

【技术实现步骤摘要】
一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法


[0001]本专利技术属于计算机视觉中的跨视角图像检索
,具体涉及一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法。

技术介绍

[0002]跨视角地理图像检索是从卫星视角或无人机视角等不同角度对图像中相同的地理目标进行检索匹配,例如,给定一个无人机视角查询图像,在卫星视角的候选图像中搜索相同地理目标的图像。它有着广泛的运用,如无人机精准快递、无人机侦查、无人机导航任务等,这些任务都要求无人机能够实现较为精确的地理目标定位,有着极大地应用价值和经济效益。
[0003]由于极端的视角变化引起视觉外观的巨大变化,跨视角地理图像检索是一个具有挑战性的任务。随着深度学习的发展,跨视角地理图像检索任务得到了长足的发展,其主要方法可以分为以下两类:
[0004](1)用度量学习研究深度神经网络学习判别特征:深度神经网络将学习一个特征空间,让匹配的图像对更近,将不匹配的图像对推远;在此类方法的网络设计中,注意力机制也得到了广泛的应用。
[0005](2)用图像中心相邻区域信息丰富判别线索:受人类视觉系统工作启发,人类视觉系统一般采用分层处理的方式来提高判断的准确性;人类视觉系统首先关注的是不同视角场景中是否包含相同的地理目标,然后会检查地理目标周围的上下文信息,以验证匹配的正确性。此类方法利用图像中心地理目标的相邻区域作为辅助信息,探索地理图像上下文的信息,丰富判别线索。
[0006]传统的方法通常侧重挖掘图像中心地理目标的细粒度特征,而低估了相邻区域的上下文信息的重要性。而新提出的方法利用图像中心地理目标的相邻区域作为辅助信息,丰富判别线索,显著提升了效果。但关注图像的上下文信息的同时,也会带来不可避免的冗余信息,一定程度上导致了检索精度的下降,而且导致检索特征维度较大,会降低检索的速度。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,提供了一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法,使用去冗余信息后的判别表示来进行跨视角地理图像检索;利用变分蒸馏技术,将特征提取模块所提取得到的特征,通过信息瓶颈模块压缩特征进行去冗余信息,得到更具有判别性、低维的图像表示,以达到提高检索结果准确性和加快检索速度的目的。
[0008]本专利技术基于信息瓶颈变分蒸馏的跨视角地理图像检索模型实现,具体包括特征提取模块,信息瓶颈模块和两个模块分别对应的分类器1和分类器2,详细解释如下。
[0009]其中所述特征提取模块是使用在ImageNet上预训练权重的残差神经网络ResNet

50,提取输入图像的全局特征。ResNet

50包含五个名为conv1、conv2、conv3、conv4、conv5的块、一个平均池化层和一个全连接层,本专利技术移除ResNet

50的平均池化层和全连接层,输入图像获得图像全局特征,用于后续的处理。
[0010]为了充分利用图像的上下文信息,对于提取得到的图像全局特征,采用方环特征分区策略,根据相邻区域到图像中心的距离提供的注意力,将相邻区域作为辅助信息,丰富地理图像的判别线索。具体操作为使用方环分区设计,将特征提取模块提取的图像全局特征划分为几个方环部分,然后每个部分都经过平均池化得到维度为2048的特征,过程可以表述为:
[0011]f
j
=F
resnet

50
(x
j
)
[0012][0013][0014]下标j代表不同的视角,x
j
表示输入的图像,f
j
表示提取的图像全局特征,表示从图像全局特征f
j
划分的第i部分的特征,表示切割的第i部分的特征经过平均池化后的特征。F
slice
表示方环特征分区策略操作,Avgpool表示平均池化操作;得到的初始特征将作为分类器1和信息瓶颈模块的输入。
[0015]分类器1由全连接层、批处理归一化层、Dropout层和分类层组成,分类层是全连接层,分类层输出向量的维度为地理目标的类别个数。
[0016]信息瓶颈模块是由一个编码器实现的,对得到的初始特征进行压缩降维,输出维度大小为400的特征,比常用的特征维度512更小,基于信息瓶颈变分蒸馏的跨视角地理图像检索模型训练完毕后,信息瓶颈模块可以得到低维的、更具有判别性的图像表示作为检索特征,可以加快检索速度和提高检索性能。
[0017]分类器2的输入是信息瓶颈模块的输出,输入的特征维度是400,输出向量的维度为地理目标的类别个数,中间也是由批处理归一化层、Dropout层所组成。
[0018]本专利技术一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法,其特征在于,包括以下步骤:
[0019]步骤S1:选择公共的跨视角地理图像训练数据集
[0020]步骤S2:训练基于信息瓶颈变分蒸馏的跨视角地理图像检索模型
[0021]步骤S2.1:使用特征提取模块提取训练数据集的图像特征,特征提取模块的输入为不同视角的两个图像,记为视角1图像和视角2图像;
[0022]步骤S2.2:视角1图像x1输入特征提取模块得到图像全局特征f1;采用方环特征分区策略,使用方环分区设计,得到划分后各部分的特征在经过平均池化得到视角1图像的初始特征
[0023]步骤S2.3:视角2图像x2和视角1图像x1操作一样,得到视角2图像的初始特征
[0024]步骤S2.4:将步骤S2.2和步骤S2.3得到的两个视角的初始特征和输入分类器1,计算交叉熵分类损失,分类损失函数L
cls1
如下:
[0025][0026][0027]j∈{1,2}表示不同的视角,i表示划分的第i部分,F
classifier1
(
·
)表示分类器1执行的操作,表示地理目标真实标签y的预测概率,表示各个地理目标的预测概率,C为地理目标的类别个数;是分类器1输出的一个向量,其维度为分类目标的个数,代表在c位置上的数值,为预测的概率,c相当于一个下标;是给定的一个值y,直接进行计算得到。
[0028]步骤S2.5:将步骤S2.2和步骤S2.3得到的两个视角的初始特征和输入信息瓶颈模块进行压缩特征去冗余信息,得到低维的图像表示,分别记为和
[0029]步骤S2.6:将步骤S2.5得到的两个视角低维的图像表示和输入分类器2,计算交叉熵分类损失,分类损失函数L
cls2
如下:
[0030][0031][0032]j∈{1,2}表示不同的视角,i表示划分的第i部分,F
classifier2
(
·
)表示分类器2执行的操作,表示地理目标真实标签y的预测概率,表示各个地理目标的预测概率,C为地理目标的类别个数;是分类器2输出的一个向量,其维度为分类目标的个数,代表在c位置上的数值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法,其特征在于,该方法基于信息瓶颈变分蒸馏的跨视角地理图像检索模型实现,该模型包括特征提取模块、信息瓶颈模块、特征提取模块对应的分类器1以及信息瓶颈模块对应的分类器2,所述基于信息瓶颈变分蒸馏的跨视角地理图像检索方法具体包括以下步骤:步骤S1)选择公共的跨视角地理图像训练数据集;步骤S2)对所述跨视角地理图像训练数据集进行预处理,得到预处理后的训练数据集,其中预处理操作包括将输入的跨视角地理图像训练数据集中的图像调整为固定大小256
×
256,然后进行图像随机翻转;步骤S3)采用所述预处理后的训练数据集训练基于信息瓶颈变分蒸馏的跨视角地理图像检索模型,具体包括如下步骤:步骤S31)使用特征提取模块提取所述跨视角地理图像训练数据集的图像特征,特征提取模块的输入为不同视角的两个图像,记为视角1图像和视角2图像;步骤S32)视角1图像x1输入特征提取模块得到图像全局特征f1;采用方环特征分区策略,使用方环分区设计,得到划分后各部分的特征f
1i
,再经过平均池化得到视角1图像的初始特征步骤S33)视角2图像x2和视角1图像x1操作一样,得到视角2图像的初始特征步骤S34)将步骤S32)和步骤S33)得到的两个视角图像的初始特征和输入分类器1,计算交叉熵分类损失,分类损失函数L
cls1
如下所示:如下所示:j∈{1,2}表示不同的视角,j=1表示视角1,j=2表示视角2;F
classifier1
(
·
)表示分类器1执行的操作;i表示划分的第i部分,表示地理目标真实标签y的预测概率,表示第c个地理目标的预测概率,C为地理目标的类别个数;步骤S35)将步骤S32)和步骤S33)得到的两个视角图像的初始特征和输入信息瓶颈模块进行压缩特征,得到低维的图像表示,分别记为和步骤S36)将步骤S35)得到的两个视角低维的图像表示和输入分类器2,计算交叉熵分类损失,分类损失函数L
cls2
如下所示:如下所示:如下所示:表示此时地理目标真实标签y的预测概率,表示此时第c个地理目标的预测概率;F
classifier2
表示分类器2执行的操作;步骤S37)利用分类器1和分类器2得到的标签y的预测分布和
和计算变分蒸馏损失,变分蒸馏损失函数如下所示:其中D
KL
为计算KL距离,上述公式为计算预测分布和和之间的KL距离,以确保获得的低维图像表示和对于标签y是充分的,且和相比于初始特征和压缩特征维度时丢弃了与任务无关冗余信息,更具有判别性;步骤S38)跨视角地理图像检索模型的总损失函数L如下:L=L
cls1
+L
cls2
+λL
d
其中λ为权重超参数;步骤S39)利用随机梯度下降法对总损失函数L进行优化求解...

【专利技术属性】
技术研发人员:徐行胡谦李宛思沈复民
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1