一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法技术

技术编号:38219994 阅读:6 留言:0更新日期:2023-07-25 17:51
一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法属于计算机视觉图像处理领域。本发明专利技术使用特征解耦重建增强模块,通过实例归一化学习不变性特征,将归一化过滤后的特征通过通道注意力解耦出与定位任务相关的特征重建回不变性特征,以此有效提高模型的表示能力,提高对光照、天气等变化的鲁棒性;综合考虑定位算法的特征表达能力和计算效率,采用多通道并行的膨胀卷积,在较小计算量增加的情况下增加感受野大小,从而获得不同尺度的信息,丰富特征的表达能力,以此设计视觉地理定位算法,来提取尺度更丰富、表示能力更好的深度特征,以实现更好的定位结果。以实现更好的定位结果。以实现更好的定位结果。

【技术实现步骤摘要】
一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法


[0001]本专利技术属于计算机视觉图像处理领域,设计了一种结合特征解耦重建和多尺度全局描述符的视觉地点识别算法。

技术介绍

[0002]近年来,随着手机、相机等智能设备的不断发展,图像数据的获取成本大大降低,越来越多的图像采集设备都配置了GPS定位功能,上到航拍器、无人机,下到电子拍摄设备,比如手机、数码相机等,这些设备获取的图像具有相应拍摄地点的地理位置信息。与此同时,随着互联网技术的快速发展,当今世界已经进入信息化时代,越来越多的互联网用户通过社交软件与网站将自己拍摄的照片分享出来,这使得互联网上带有地理位置信息的图片数据爆炸式增多。地理位置信息是图像最重要属性之一,如何准确地判断图像的地理位置,具有非常深刻的研究意义。
[0003]视觉地理定位技术具有非常广泛的应用,在自动驾驶、机器人系统、安防监控等领域都发挥了重要作用,一直以来备受关注。其任务是给定一张查询图像,通过在数据库中检索最相似的图像来估计其位置,随着手机、相机等智能设备的不断发展,城市图像数据的获取成本大大降低。
[0004]目前研究主要包括优化特征主干提取网络或者使用更好的特征度量方法。其中在优化特征主干提取网络方面,往往采用更复杂的特征提取结构以提取表示能力更好的特征。早期的视觉地点识别方法依赖手工设计的局部特征和全局特征,常见的局部特征有SIFT、SURF等特征,全局特征有局部聚集描述符(VLAD)、Fisher Vector等。深度学习的发展为计算机视觉领域提供了更为广阔的发展空间,其强大的特征表示能力为图像检索任务的性能提供了更多的可能性。NetVLAD是在VLAD的基础上提出一个端到端的网络,金字塔是解决多尺度问题的常用方案,可以分为图像金字塔和特征金字塔。图像金字塔是生成不同尺度的图像,但是将图像金字塔的每一层特征化都有明显的局限性,而特征金字塔会使推理时间大幅增加,同时占用大量内存。SPENetVLAD通过空间金字塔将图像分为不同尺寸的块来提取特征从而学习空间信息和区域信息,APANet使用金字塔网络加注意力来学习区分性的特征,提高特征的表达能力;此外MultiResNetVLAD在原图上使用三种多分辨率操作,然后每种分辨率的图像重新提取全局特征,计算量增加两倍。在特征度量方法方面,一般使用局部特征重新排序的方法,计算开销和时间都大大增减,所以需要在局部特征数量和计算开销之间取得平衡。这些方法虽能在解决定位任务中的挑战问题上起到一定的效果,但是受光照、天气条件、视点和尺度变化,以及景物遮挡、相似场景等因素的干扰,现实应用中视觉位置识别仍然面对着许多挑战。
[0005]结合上述问题,目前的视觉地理定位方法都普遍存在网络结构复杂、表示能力差等问题,现有的方法很难实现在实际任务中的推广应用,考虑到通过特征解耦重建来学习图像不变性的特征,并通过解耦有用信息来增强特征以提高特征的表示能力,提高对光照、
天气等挑战下的辨别能力,利用多通道并行的膨胀卷积,在较小计算量增加的情况下生成多尺度的全局描述符来解决尺度变化的问题,来提高图像检索的精确度。

技术实现思路

[0006]为了解决现有视觉地理定位算法中存在的视点、尺度、光照等变化的挑战,本专利技术使用特征解耦重建增强模块,通过实例归一化学习不变性特征,将归一化过滤后的特征通过通道注意力解耦出与定位任务相关的特征重建回不变性特征,以此有效提高模型的表示能力,提高对光照、天气等变化的鲁棒性;综合考虑定位算法的特征表达能力和计算效率,采用多通道并行的膨胀卷积,在较小计算量增加的情况下增加感受野大小,从而获得不同尺度的信息,丰富特征的表达能力,以此设计视觉地理定位算法,来提取尺度更丰富、表示能力更好的深度特征,以实现更好的定位结果。
[0007]本专利技术是采用以下技术手段实现的:
[0008]一种基于特征解耦重建和多尺度全局描述符的视觉地点识别算法。该方法重点包括设计特征解耦重建模块、多尺度全局特征提取网络。特征解耦重建模块使用实例归一化对学习图像结构上的不变性特征,但是归一化本身是任务无关的,不可避免的会过掉一些与任务相关的信息。使用通道注意力对归一化过滤的特征进行解耦,保留与定位任务相关的信息,去除与任务无关的信息,以重建特征,提高特征的表达能力;多尺度特征提取网络在VGG

Net特征提取部分后添加3个并列的膨胀卷积分支,每个分支拥有不同的膨胀率,将三个分支提取的特征进连接,得到多尺度的全局特征,对其进行压缩得到多尺度全局描述度;然后使用查询图和正负样本全局描述符之间的三重损失和特征解耦重建损失组合来完成模型的训练优化过程。
[0009]本专利技术方法分为3部分,分别是特征解耦重建模块、多尺度特征提取网络、损失函数选取。
[0010]该方法具体包括以下步骤:
[0011]1)特征解耦重建模块:
[0012]该模块的作用是提取与定位任务相关的不变性相关的信息,提高模型针对光照、天气变化等挑战的鲁棒性,增强特性的表示能力。
[0013]第一步,先对特征提取网络进行预训练模型的加载,网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG

Net的前五个卷积层。在前四个卷积层的每个卷积层之后插入特征解耦重建模块。
[0014]经过VGG

Net的卷积层后,得到图像提取的特征,对特征进行实例归一化。实例归一化可以提取单个图像本身的特征,但同时也剔除了一部分与任务相关的特征。将归一化后的特征与输入的特征做差,可以得到提出的特征。
[0015]第二步,使用一个通道注意力的网络结构对归一化后的特征进行解耦,解耦出定位任务相关的信息和与定位人物无关的信息,将定位任务相关的信息与归一化后的特征相加得到重建后的特征,得到增强后的特征,同时为了更好的训练网络,还将与任务无关的信息与归一化后的特征相加得到重建,得到削弱后的特征。
[0016]训练过程中,返回每层特征解耦重建后增强后的特征、削弱后的特征计算损失,而推理过程中不需要返回特征。
[0017]2)多尺度特征提取网络:
[0018]该模块的作用在计算开支增加小的情况下,学习尺度更丰富的特征,以应对视点改变该来的景物尺度变化。
[0019]第一步,多尺度特征提取网络在VGG

Net特征提取部分后添加3个并列的膨胀卷积分支,每个分支的膨胀率分别为1、2、3,将得到三个的特征进行连接得到全局特征,通过不同的感受野使得可以关注到不同尺度的景物信息,丰富图像的表示。
[0020]第二步,进行对多尺度全局特征压缩。在训练前,首先在数据库中随机选取100张图像进行提取多尺度全局特征,每张图像随机提取500个点的特征值,共提取50000个特征点值,使用K

means聚合成64
×
512的特征作为特征压缩网络初始化的聚类中心,其中64为聚类中心的个数,512为聚类中心的大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法,其特征在于,分为3部分,分别是特征解耦重建模块、多尺度特征提取网络、损失函数选取;具体包括以下步骤:1)特征解耦重建模块:第一步,先对特征提取网络进行预训练模型的加载,网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG

Net的前五个卷积层;在前四个卷积层的每个卷积层之后插入特征解耦重建模块;经过VGG

Net的卷积层后,得到图像提取的特征,对特征进行实例归一化;将归一化后的特征与输入的特征做差,得到剔除的特征;第二步,使用一个通道注意力的网络结构对上述剔除的特征进行解耦,解耦出定位任务相关的信息和与定位任务无关的信息,将定位任务相关的信息与归一化后的特征相加得到重建后增强的特征,同时为了更好的训练网络,还将与任务无关的信息与归一化后的特征相加得到重建后削弱的特征;训练过程中,返回每层特征解耦重建后增强后的特征、削弱后的特征计算损失,而推理过程中不需要返回特征;2)多尺度特征提取网络:第一步,多尺度特征提取网络在VGG

Net特征提取部分后添加3个并列的膨胀卷积分支,每个分支的膨胀率分别为1、2、3,将得到三个的特征进行连接得到全局特征,通过不同的感受野使得可以关注到不同尺度的景物信息,丰富图像的表示;第二步,进行对多尺度全局特征压缩;在训练前,首先在数据库中随机选取100张图像进行提取多尺度全局特征,每张图像随机提取500个点的特征值,共提取50000个特征点值,使用K

means聚合成64
×
512的特征作为特征压缩网络初始化的聚类中心,其中64为聚类中心的个数,512为聚类中心的大小;训练时,使用多尺度全局特征和聚类中心计算残差和作为压缩后的多尺度全局描述符;3)损失函数选取Ranking损失和三重损失是图像检索中常用的损失,ranking损失针对二元组的数据衡量数据点之间的相似度度量,三重损失是针对三元组数据衡量数据点之间的相似度度量;使用困难正样本和困难负样本进行训练;三重损失倾向于最小化查询样本和正样本之间的距离,最大化查询样本和负样本之间的距离,损失用L
con1
表示;而特征解耦重建损失也有相同的出发点,特征增强后的特征应该使得查询样本和正样本之间的距离更近,查询样本和负样本之间的距离更远;相反,特征削弱后的特征应该使得查询样本和正样本之间的距离更远,查询样本和负样本之间的距离更近,损失用L
con2
;所以总损失函数如公式(1):L
con
=L
con1
+L
con2
ꢀꢀꢀꢀ
(1)。2.根据权利要求1所述的方法,其特征在于:1)特征解耦重建先对特征提取网络进行预训练模型的加载,网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG

Net的前五个卷积层;每层卷积包括大小为3
×
3的卷积核、非线性激活层ReLU、大小为3
×
3的卷积核、非线性激活层ReLU和卷积核大小为2
×
2的最大池化操作,输出通道分别为64、128、256、512、512;在前四个卷积层的每个卷积层之后插入特征解耦重建模块进行特征增强;从前一层输入的特征f首先经过实例归一化得到入的特征f首先经过实例归一化得到其中,IN()代表实例归一化操作,μ和σ代表在每个样本每个通道上的空间维度上独立计算的平均值和标准差,γ和β表示可训练参数,取训练30轮后损失函数最小的模型参数;输入特征f与归一化后的特征做差,得到归一化过滤掉的特征R;由于不同图像的差异,所以使用通道注意力以内容自适应的方式进行解耦,过滤掉的特征经过1次平均池化层、2次1
×
1卷积、1次Relu激活函数和1次Sigmod激活函数,得到通道注意力的权重α,表示如下α=ε(W2δ(W1pool(R)))
ꢀꢀꢀꢀ
(3)其中,δ和σ分别代表Relu激活函数和Sigmod激活函数,W1和W2分别代表卷积核的参数,取训练30轮后损失函数最小的模型参数,为了减少参数量,W1的通道数为输入特征通道数/r,W2的通道数为输入特征通道数在,这里r=16;过滤掉的特征与通道注意力得到的权重进行乘积得到与任务相关的特征R
+
,过滤掉的特征与任务相关的特征做差得到与任务无关的特征R

【专利技术属性】
技术研发人员:张辉庞银冬栾天李嘉锋卓力
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1