一种基于深度学习和街景图像的图像定位方法技术

技术编号：34770553 阅读：18 留言：0更新日期：2022-08-31 19:31

本发明专利技术提出了一种基于深度学习和街景图像的图像定位方法，为了提取图像中具有地理位置信息的图像特征，构建了基于深度学习的特征提取网络，利用地标数据集来提高网络对含有位置信息的特征的权重；然后通过特征聚合方法提取街景图像的聚合特征来提高特征进行匹配时的速度，同时利用特征相似度计算方法来降低重复纹理特征的影响；最后通过核密度估计方法的局部峰值确定待定位图像的地理位置坐标，并可以提高结果中正确位置的坐标排名，从而进一步提高整体定位的准确率，为图像中反映的事件的空间分布和发展趋势分析提供支持。空间分布和发展趋势分析提供支持。空间分布和发展趋势分析提供支持。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习和街景图像的图像定位方法

[0001]本专利技术属于图像视觉位置定位应用领域，特别涉及一种基于深度学习和街景图像的图像定位方法。

技术介绍

[0002]随着社交媒体的出现，以图像的形式来呈现新闻或事件已成为常态。当前互联网已经成为新闻发布和传播的主要渠道。其中，空间位置则是图像中的新闻事件需要传达的重要信息，因此对图像的地理位置的定位可以为分析事件的空间分布、发展趋势和为实施干预措施提供支持。
[0003]然而，直接或自动地从新闻或社交媒体的图片中获得其位置信息仍存在困难。一方面，出于安全或隐私的考虑，用户通常在发送公开的信息时会隐藏自己地理位置或只展示模糊的语义位置，并在分享图像时可能会删除EXIF信息以避免暴露图片拍摄位置。另一方面，图片位置信息在上传、压缩或复制过程中可能会丢失。这使网络中大量位置缺失的图像难以被有效的分析和利用。
[0004]与事件相关的图像通常在事发地点拍摄且图像的内容隐含了地理位置的线索，这为图像的位置定位提供了前提条件。街道中的建筑物、布局等通常能够表达图像的地理位置信息，而街景图像由于具有经纬度信息、覆盖范围广、在城市中分布密集并且以多种拍摄角度来反映城市环境，所以可以为图像的位置定位提供视觉上的参照和坐标定位。通过图像检索的方式可以提取图像中具有地理位置特征的图像特征。然后利用相似度匹配算法，使用街景数据集来匹配图像。最后根据返回的街景结果与其坐标信息，确定待定位图像的位置。
[0005]然而，网络中的图像由于受拍摄视角、拍摄时间段和表现内容的...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习和街景图像的图像定位方法，其特征在于，包括以下步骤：步骤1，街景与待定位图像数据获取与处理；步骤2，生成训练数据集；步骤3，构建特征提取网络：建立一个端到端的深度卷积神经网络来提取街景和待定位图像的特征，网络前一部分由全卷积神经网络组成，负责提取图像的密集特征，在全卷积网络之后加入特征筛选网络模块，所述特征筛选网络模块由平滑层、注意力层和白化层组成，用来对前一部分输出的密集特征进行筛选；步骤4，训练特征提取网络并提取街景的局部图像特征：使用训练数据集对步骤3中的特征提取网络进行训练，在训练数据输入特征提取网络前，根据图像标签随机生成一系列二元组对，每个元组由一个基准图像、一个正样本和若干个负样本组成，训练时，使用损失函数对网络进行迭代优化，直到网络收敛得到特征提取网络模型，通过该模型提取街景图像的局部图像特征；步骤5，生成特征码本并计算聚合特征：随机选取部分街景图像的局部图像特征，设置需要生成的聚类中心数然后进行特征聚类，生成特征码本，根据特征码本，计算待定位图像和所有参考数据集中街景图的聚合特征向量，每张图像对应一个聚合特征；步骤6，建立倒排索引并进行街景匹配：根据聚合特征和街景图像的一一对应关系，建立用于通过特征来查询街景图像的倒排索引表，将待定位图像的特征向量与街景图像的特征向量进行相似度计算，返回相似度高的街景特征并排序，并根据倒排索引表查询检索得到的街景特征以获得对应的街景图像；步骤7，根据检索结果返回位置坐标：通过核密度估计方法，同时考虑检索结果的经纬度信息和相似度排名来估计空间中相似度分布的峰值，将其作为定位的候选结果，根据峰值大小返回待定位图像的坐标位置。2.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤1的具体实现方式如下；步骤1.1，待定位图像可以通过新闻网站、社交媒体或相机拍摄方法获取，街景图像可以通过网络街景地图服务、街景车辆采集方法获取，另外收集街景对应的元数据，包括经纬度信息；步骤1.2，对街景图像进行预处理；对于等距全景图的处理，首先将街景图像进行拼接，获得完整的街景全景图，然后对街景全景图进行裁剪，去除上下两侧或左右两侧的无效值，从而将图像的长宽比保持为2：1；步骤1.3，生成街景透视图；根据设置的投影参数，将每张街景全景图变换为无变形的多张平面透视街景图，投影方法包含两步，首先将全景图投影到一个球面上，然后设置合适的投影参数将其投影在平面上，投影参数设置为，FOV：60
°
，Pitch：[5
°
20
°
35
°
]、Yaw：[0
°
45
°
90
°
135
°
180
°
225
°
270
°
315
°
]，其中，FOV为视场角，Pitch为俯仰角，Yaw为航向角，根据三个参数的组合，每一张全景图可生成多张一定大小的街景图。3.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤2的具体实现方式如下；步骤2.1，收集谷歌地标数据集v2，根据元数据标签下载并存储数据，从中随机选取N类别的图像；
步骤2.2，对地标数据集进行清洗并生成训练集，提取N类中图像的SIFT图像特征，将一个类中的图像与本类的其他图像进行匹配，若匹配特征点总数量小于设定的阈值则将该图像剔除，反之则保留，利用清洗后的地标数据集生成训练集。4.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤3中，全卷积神经网络通过ResNet网络去除最后的池化层和全连接层这两层来构成，并将该网络之后连接特征筛选模块来对密集特征进行打分和选择，特征筛选模块由平滑层、注意力层和白化层组成；平滑层聚合密集特征中相邻的多个通道中较大的激活值，由M
×
M大小的平均池化层构成；注意力层为密集特征进行打分，筛选出得分较高的前n个局部特征，由l2归一化函数实现；白化层对特征进行降维和去相关性，由1
×
1大小带有偏置的卷积层构成，网络参数在网络训练前通过预训练网络提取的局部图像特征训练得到。5.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特...

【专利技术属性】
技术研发人员：陈玉敏，褚天佑，徐真珍，陈国栋，陈娒杰，陈玥君，苏恒，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人