基于无监督转换器平衡哈希的遥感图像检索方法技术

技术编号:31575317 阅读:18 留言:0更新日期:2021-12-25 11:16
本发明专利技术涉及一种无监督转换器平衡哈希的遥感图像检索方法。首先将数据集划分为训练数据集和测试数据集,接着构建整体网络模型,使用训练数据集对整体网络进行训练,最后使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。本发明专利技术将卷积变分自编码器架构与转换器主干相结合,可以指导遥感图像的多通道信息之间的交互,并结合重构代价、KL散度和平衡项设计了目标函数,可以在哈希学习过程中保留哈希码的区分度,减少实值输出空间和汉明输出空间之间的差异,进一步提高检索性能。进一步提高检索性能。进一步提高检索性能。

【技术实现步骤摘要】
基于无监督转换器平衡哈希的遥感图像检索方法


[0001]本专利技术属于遥感图像检索领域,特别是涉及一种基于无监督转换器平衡哈希的遥感图像检索方法。

技术介绍

[0002]随着遥感技术的发展,遥感图像呈现出高速增长的趋势。为了从大规模遥感图像中挖掘有效信息,许多研究人员开始关注遥感图像检索的研究。遥感图像检索技术的目标是自动将语义相似的遥感图像与查询的遥感图像进行匹配。大量基于内容的遥感图像检索方法逐渐被开发出来用于管理和分析遥感图像。这些方法通常包括两个主要部分:特征提取和相似度测量。它们常使用高维特征描述符,如纹理、形状和深度特征,然而随着遥感图像采集设备精度的不断提高,基于内容的遥感图像检索方法容易出现检索速度慢、存储空间不足等问题。
[0003]哈希技术因其速度快、存储空间小而被广泛应用于解决基于内容的遥感图像检索方法的问题。哈希技术的目的是将遥感图像映射为哈希码,同时保留原始空间中遥感图像的相似性。监督哈希算法通过利用监督信息来学习哈希函数,但是在获取类别标签时非常耗时。为了解决这个问题,在大规模遥感图像检索中广泛提出了无监督哈希算法。
[0004]尽管现有的无监督遥感图像检索算法取得了一些进展,但仍然存在两个明显的不足:1)现有的方法未能充分减少实值输出空间与汉明输出空间的差异,最终导致遥感图像检索性能不佳;2)一些方法不能考虑多通道信息之间的相互作用,导致多通道信息利用不足,最终影响检索性能。

技术实现思路

[0005]本专利技术针对现有技术的不足,提供一种基于无监督转换器平衡哈希的遥感图像检索方法。首先将数据集划分为训练数据集和测试数据集,接着构建整体网络模型,使用训练数据集对整体网络进行训练,最后使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。
[0006]为了达到上述目的,本专利技术提供的技术方案是一种基于无监督转换器平衡哈希的遥感图像检索方法,包括以下步骤:
[0007]步骤1,划分训练数据集和测试数据集;
[0008]步骤2,构建整体网络模型,利用变分自编码器作为主干网络,主干网络包括推理网络和生成网络两部分;
[0009]步骤3,初始化整体网络模型参数,计算整体网络模型的目标函数,训练整体网络模型并更新模型参数;
[0010]步骤4,使用训练好的网络得到检索结果。
[0011]而且,所述步骤2中推理网络L(h
n
|x
n
)将原始数据x
n
投影到变分概率分布中,然后
从变分概率分布中采样特征向量h
n
,主要由遥感转换器、两个并行的全连接层和一个哈希编码层组成。并行全连接层包含k个结点,哈希编码层利用再参数化技巧来连接两个并行的全连接层。遥感转换器由卷积层、碎片重塑算子、位置嵌入、RGB自注意模块和NIF自注意模块组成。卷积层采用128个滤波器,大小为8
×
8,卷积层步长为8像素。碎片重塑算子可以将映射得到的特征向量h
n
重塑为128维的16个碎片嵌入。位置嵌入可以添加到补丁嵌入中,具体来说利用17个标准科学系的一维嵌入和128维来保留位置信息,并将第0个位置嵌入的站点添加到标准令牌中,该令牌包含128维可学习参数,得到的嵌入向量序列作为RGB自注意模块和NIF自注意模块的输入。
[0012]NIF自注意模块采用包含8个多头自注意层和MLP层的6个交替堆栈,每个交替堆栈包含两个子层,在每个子层前应用层范式,每个子层后应用剩余连接,因此每个子层的输出可表示为:
[0013]SubLayerOut=LayerNorm(I
n
+SubLayer(I
n
))
ꢀꢀꢀ
(1)
[0014]式中,SubLayerOut表示每个子层的输出,LayerNorm(
·
)表示范式层,I
n
表示子层输入,SubLayer(
·
)表示子层本身实现的函数。
[0015]NIF自注意模块中为栈i的输入碎片嵌入,为栈i+1的输入,利用参数权重将转变为矩阵则NIF注意力子层的公式如下:
[0016][0017]式中,是堆栈i的输入碎片嵌入;softmax(
·
)为归一化指数函数;考虑到速度和空间效率,的点积通过进行缩放,d
k
是矩阵是矩阵的维度。
[0018]RGB自注意模块也由6个相同层的堆栈组成,与NIF自注意力子层不同,RGB自注意力子层插入了第二个掩码函数,该函数对相应编码器堆栈的输出执行多头注意力,RGB注意力子层的公式如下:
[0019][0020]式中,表示RGB自注意模块的查询矩阵,表示RGB自注意模块的配对键值矩阵,是堆栈i的输入碎片嵌入。
[0021]生成网络g
Φ
(x
n
|h
n
)通过投影特征向量h
n
来重构遥感影像x
n
,它主要由一个全连接层、一个重塑算子、四个带有BN的转置卷积层和一个卷积层组成。四个带有BN的转置卷积层分别采用256、126、64、32个大小为3
×
3的滤波器,每个转置卷积层的步幅为2个像素,利用LeakyReLU函数作为激活函数。卷积层采用3个大小为3
×
3的滤波器,每个卷积层的步幅为1个像素,利用tanh函数作为激活函数。
[0022]而且,所述步骤3中给定任意遥感影像x
n
,深度哈希函数可表示为:
[0023]b
n
=H(x
n
)=sign(L
θ
(h
n
|x
n
))
ꢀꢀꢀ
(4)
[0024][0025]式中,b
n
表示遥感影像x
n
的k位哈希码,H(
·
)表示遥感影像x
n
的深度哈希函数,h
n
表示遥感影像x
n
的特征向量,L
θ
表示x
n
的推理网络,θ表示推理网络的参数。
[0026]为了生成有效的哈希码,N个样本的重构成本可以表示为:
[0027][0028]其中,b
n
表示遥感影像x
n
的k位哈希码,g
Φ
(x
n
|b
n
)表示b
n
的生成网络。
[0029]由于式(6)是一个非光滑函数,在深度神经网络中很难计算倒数,因此将重构成本写为:
[0030][0031]式中,J
r
表示重构成本,x
n
表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于,包括如下步骤:步骤1,划分训练数据集和测试数据集;步骤2,构建整体网络模型,利用变分自编码器作为主干网络,主干网络包括推理网络和生成网络两部分;步骤3,初始化整体网络模型参数,计算整体网络模型的目标函数,训练整体网络模型并更新模型参数;步骤4,使用训练好的网络得到检索结果。2.如权利要求1所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:步骤2中推理网络L(h
n
|x
n
)将原始数据x
n
投影到变分概率分布中,然后从变分概率分布中采样特征向量h
n
,由遥感转换器、两个并行的全连接层和一个哈希编码层组成;并行全连接层包含k个结点,哈希编码层利用再参数化技巧来连接两个并行的全连接层;遥感转换器由卷积层、碎片重塑算子、位置嵌入、RGB自注意模块和NIF自注意模块组成。3.如权利要求2所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:遥感转换器中的卷积层采用128个滤波器,大小为8
×
8,卷积层步长为8像素;碎片重塑算子将映射得到的特征向量h
n
重塑为128维的16个碎片嵌入;位置嵌入添加到补丁嵌入中,具体来说利用17个标准科学系的一维嵌入和128维来保留位置信息,并将第0个位置嵌入的站点添加到标准令牌中,该令牌包含128维可学习参数,得到的嵌入向量序列作为RGB自注意模块和NIF自注意模块的输入;NIF自注意模块采用包含8个多头自注意层和MLP层的6个交替堆栈,每个交替堆栈包含两个子层,在每个子层前应用层范式,每个子层后应用剩余连接,因此每个子层的输出可表示为:SubLayerOut=LayerNorm(I
n
+SubLayer(I
n
))
ꢀꢀꢀꢀꢀꢀ
(1)式中,SubLayerOut表示每个子层的输出,LayerNorm(
·
)表示范式层,I
n
表示子层输入,SubLayer(
·
)表示子层本身实现的函数;NIF自注意模块中为栈i的输入碎片嵌入,为栈i+1的输入,利用参数权重将转变为矩阵则NIF注意力子层的公式如下:式中,是堆栈i的输入碎片嵌入;softmax(
·
)为归一化指数函数;考虑到速度和空间效率,的点积通过进行缩放,d
k
是矩阵是矩阵的维度;RGB自注意模块也由6个相同层的堆栈组成,与NIF自注意力子层不同,RGB自注意力子层插入了第二个掩码函数,该函数对相应编码器堆栈的输出执行多头注意力,RGB注意力子层的公式如下:
式中,表示RGB自注意模块的查询矩阵,表示RGB自注意模块的配对键值矩阵,是堆栈i的输入碎片嵌入。4.如权利要求1所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:步骤3中生成网络g
Φ
(x
n
|h
n
)通过投影特征向量h
n
来重构遥感影像x
n
,它由一个全连接层、一个重塑算子、四个带有BN的转置卷积层和一个卷积层组成;四个带有BN的转置卷积层分别采用256、126、64、32个大小为3
×
...

【专利技术属性】
技术研发人员:陈亚雄王凡李小玉汤一博熊盛武
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1