【技术实现步骤摘要】
一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法
[0001]本专利技术属于计算机视觉图像处理领域,设计了一种结合特征解耦重建和多尺度全局描述符的视觉地点识别算法。
技术介绍
[0002]近年来,随着手机、相机等智能设备的不断发展,图像数据的获取成本大大降低,越来越多的图像采集设备都配置了GPS定位功能,上到航拍器、无人机,下到电子拍摄设备,比如手机、数码相机等,这些设备获取的图像具有相应拍摄地点的地理位置信息。与此同时,随着互联网技术的快速发展,当今世界已经进入信息化时代,越来越多的互联网用户通过社交软件与网站将自己拍摄的照片分享出来,这使得互联网上带有地理位置信息的图片数据爆炸式增多。地理位置信息是图像最重要属性之一,如何准确地判断图像的地理位置,具有非常深刻的研究意义。
[0003]视觉地理定位技术具有非常广泛的应用,在自动驾驶、机器人系统、安防监控等领域都发挥了重要作用,一直以来备受关注。其任务是给定一张查询图像,通过在数据库中检索最相似的图像来估计其位置,随着手机、相机等智能设备的不断发展,城市图像数据的获取成本大大降低。
[0004]目前研究主要包括优化特征主干提取网络或者使用更好的特征度量方法。其中在优化特征主干提取网络方面,往往采用更复杂的特征提取结构以提取表示能力更好的特征。早期的视觉地点识别方法依赖手工设计的局部特征和全局特征,常见的局部特征有SIFT、SURF等特征,全局特征有局部聚集描述符(VLAD)、Fisher Vector等。深度学习的发展为计算机视觉领域提供了更 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法,其特征在于,分为3部分,分别是特征解耦重建模块、多尺度特征提取网络、损失函数选取;具体包括以下步骤:1)特征解耦重建模块:第一步,先对特征提取网络进行预训练模型的加载,网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG
‑
Net的前五个卷积层;在前四个卷积层的每个卷积层之后插入特征解耦重建模块;经过VGG
‑
Net的卷积层后,得到图像提取的特征,对特征进行实例归一化;将归一化后的特征与输入的特征做差,得到剔除的特征;第二步,使用一个通道注意力的网络结构对上述剔除的特征进行解耦,解耦出定位任务相关的信息和与定位任务无关的信息,将定位任务相关的信息与归一化后的特征相加得到重建后增强的特征,同时为了更好的训练网络,还将与任务无关的信息与归一化后的特征相加得到重建后削弱的特征;训练过程中,返回每层特征解耦重建后增强后的特征、削弱后的特征计算损失,而推理过程中不需要返回特征;2)多尺度特征提取网络:第一步,多尺度特征提取网络在VGG
‑
Net特征提取部分后添加3个并列的膨胀卷积分支,每个分支的膨胀率分别为1、2、3,将得到三个的特征进行连接得到全局特征,通过不同的感受野使得可以关注到不同尺度的景物信息,丰富图像的表示;第二步,进行对多尺度全局特征压缩;在训练前,首先在数据库中随机选取100张图像进行提取多尺度全局特征,每张图像随机提取500个点的特征值,共提取50000个特征点值,使用K
‑
means聚合成64
×
512的特征作为特征压缩网络初始化的聚类中心,其中64为聚类中心的个数,512为聚类中心的大小;训练时,使用多尺度全局特征和聚类中心计算残差和作为压缩后的多尺度全局描述符;3)损失函数选取Ranking损失和三重损失是图像检索中常用的损失,ranking损失针对二元组的数据衡量数据点之间的相似度度量,三重损失是针对三元组数据衡量数据点之间的相似度度量;使用困难正样本和困难负样本进行训练;三重损失倾向于最小化查询样本和正样本之间的距离,最大化查询样本和负样本之间的距离,损失用L
con1
表示;而特征解耦重建损失也有相同的出发点,特征增强后的特征应该使得查询样本和正样本之间的距离更近,查询样本和负样本之间的距离更远;相反,特征削弱后的特征应该使得查询样本和正样本之间的距离更远,查询样本和负样本之间的距离更近,损失用L
con2
;所以总损失函数如公式(1):L
con
=L
con1
+L
con2
ꢀꢀꢀꢀ
(1)。2.根据权利要求1所述的方法,其特征在于:1)特征解耦重建先对特征提取网络进行预训练模型的加载,网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG
‑
Net的前五个卷积层;每层卷积包括大小为3
×
3的卷积核、非线性激活层ReLU、大小为3
×
3的卷积核、非线性激活层ReLU和卷积核大小为2
×
2的最大池化操作,输出通道分别为64、128、256、512、512;在前四个卷积层的每个卷积层之后插入特征解耦重建模块进行特征增强;从前一层输入的特征f首先经过实例归一化得到入的特征f首先经过实例归一化得到其中,IN()代表实例归一化操作,μ和σ代表在每个样本每个通道上的空间维度上独立计算的平均值和标准差,γ和β表示可训练参数,取训练30轮后损失函数最小的模型参数;输入特征f与归一化后的特征做差,得到归一化过滤掉的特征R;由于不同图像的差异,所以使用通道注意力以内容自适应的方式进行解耦,过滤掉的特征经过1次平均池化层、2次1
×
1卷积、1次Relu激活函数和1次Sigmod激活函数,得到通道注意力的权重α,表示如下α=ε(W2δ(W1pool(R)))
ꢀꢀꢀꢀ
(3)其中,δ和σ分别代表Relu激活函数和Sigmod激活函数,W1和W2分别代表卷积核的参数,取训练30轮后损失函数最小的模型参数,为了减少参数量,W1的通道数为输入特征通道数/r,W2的通道数为输入特征通道数在,这里r=16;过滤掉的特征与通道注意力得到的权重进行乘积得到与任务相关的特征R
+
,过滤掉的特征与任务相关的特征做差得到与任务无关的特征R
‑
技术研发人员:张辉,庞银冬,栾天,李嘉锋,卓力,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。