当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于深度学习和街景图像的图像定位方法技术

技术编号:34770553 阅读:18 留言:0更新日期:2022-08-31 19:31
本发明专利技术提出了一种基于深度学习和街景图像的图像定位方法,为了提取图像中具有地理位置信息的图像特征,构建了基于深度学习的特征提取网络,利用地标数据集来提高网络对含有位置信息的特征的权重;然后通过特征聚合方法提取街景图像的聚合特征来提高特征进行匹配时的速度,同时利用特征相似度计算方法来降低重复纹理特征的影响;最后通过核密度估计方法的局部峰值确定待定位图像的地理位置坐标,并可以提高结果中正确位置的坐标排名,从而进一步提高整体定位的准确率,为图像中反映的事件的空间分布和发展趋势分析提供支持。空间分布和发展趋势分析提供支持。空间分布和发展趋势分析提供支持。

【技术实现步骤摘要】
一种基于深度学习和街景图像的图像定位方法


[0001]本专利技术属于图像视觉位置定位应用领域,特别涉及一种基于深度学习和街景图像的图像定位方法。

技术介绍

[0002]随着社交媒体的出现,以图像的形式来呈现新闻或事件已成为常态。当前互联网已经成为新闻发布和传播的主要渠道。其中,空间位置则是图像中的新闻事件需要传达的重要信息,因此对图像的地理位置的定位可以为分析事件的空间分布、发展趋势和为实施干预措施提供支持。
[0003]然而,直接或自动地从新闻或社交媒体的图片中获得其位置信息仍存在困难。一方面,出于安全或隐私的考虑,用户通常在发送公开的信息时会隐藏自己地理位置或只展示模糊的语义位置,并在分享图像时可能会删除EXIF信息以避免暴露图片拍摄位置。另一方面,图片位置信息在上传、压缩或复制过程中可能会丢失。这使网络中大量位置缺失的图像难以被有效的分析和利用。
[0004]与事件相关的图像通常在事发地点拍摄且图像的内容隐含了地理位置的线索,这为图像的位置定位提供了前提条件。街道中的建筑物、布局等通常能够表达图像的地理位置信息,而街景图像由于具有经纬度信息、覆盖范围广、在城市中分布密集并且以多种拍摄角度来反映城市环境,所以可以为图像的位置定位提供视觉上的参照和坐标定位。通过图像检索的方式可以提取图像中具有地理位置特征的图像特征。然后利用相似度匹配算法,使用街景数据集来匹配图像。最后根据返回的街景结果与其坐标信息,确定待定位图像的位置。
[0005]然而,网络中的图像由于受拍摄视角、拍摄时间段和表现内容的多样化,图像中有效的位置信息不够突出,并且难以被自动识别和提取,增加了图像的位置定位的困难。随着深度学习的发展,提取图像中具有代表性的图像特征是当前的研究热点。基于深度学习的图像特征可以分为深度全局特征和深度局部特征,全局特征通过卷积池化层提取,可以表达图像整体的信息。局部特征通常先由全卷积网络提取密集局部特征,再利用特征选择方法选择具有代表性的特征,局部特征可以表达图像局部区域的信息。在待定位图像中,建筑物或街景往往作为背景,在整幅图像中占比较小而且不够突出,作为参考数据集的街景图像中也存在行人、车辆和广告牌等干扰,所以与深度全局特征相比,深度局部特征可以更好的表达图像局部区域的信息,而如何提取和选择包含位置信息的图像特征是目前的技术难点。
[0006]街景图像虽然可以作为参考数据集实现图像匹配和位置定位,但仍然存在许多技术问题需要克服。街景通常以全景图的格式保存四周360
°
范围的信息,每张全景图通常只有经纬度信息。在构建数据集时,通常利用投影与反投影的方法将全景图转换为与相机变形规则一致的多张透视图。由于每张街景不同方向的透视图内容往往不同,而相邻街景中的透视图存在相似的场景,所以难以仅利用街景的坐标信息对数据进行清洗和分类来获取
训练集、验证集与测试集,这导致深度神经网络不能学习到足够多的包含地理位置信息的特征。
[0007]另一方面,街景具有海量的数据量,在大型的城市规模的街景图像检索中,难以有效地使用深度局部特征进行快速的匹配,需要结合聚合方法或数据组织方式来减小时间复杂度。街景中的城市立面结构往往也包含许多重复的纹理信息,而具有这些信息的图像特征会在图像匹配时出现“视觉爆炸”现象,即这些重复的纹理特征的在图像相似度计算中贡献较多,易导致错误的检索结果,在对特征进行聚合、组织和匹配的同时,如何降低重复纹理特征的影响是另一个技术难点。
[0008]综上所述,对图像进行位置定位的过程中,尚不能有效地提取图像中的地理位置信息并在大规模的城市环境中利用街景图像进行有效的检索与定位。因此,亟待提供一种基于深度学习和街景图像的图像定位方法,为图像提供空间位置信息,进一步为事件的空间分布和发展趋势分析提供支撑。

技术实现思路

[0009]本专利技术的目的在于提供一种基于深度学习和街景图像的图像定位方法,从而解决在大规模的城市环境中利用街景图像对待定位图像进行检索,并利用检索得到的街景结果和经纬度坐标进行定位的问题。
[0010]本专利技术所采用的技术方案包括以下步骤:
[0011]步骤1:街景与待定位图像数据获取与处理。获取待定位图像与其对应城市的街景全景图,然后对街景数据进行预处理,包括对街景图像进行拼接、裁剪和投影等,以获取无变形的平面透视街景图,同时获取并记录街景的坐标等信息,作为参考数据集。
[0012]步骤2:生成训练数据集。收集地标数据集,根据元数据标签下载并管理地标图像,从中随机选取一定类别和数量的图像,然后通过数据清洗过滤每个类别中异常图像,从而生成训练数据集。
[0013]步骤3:构建特征提取网络。建立一个端到端的深度卷积神经网络来提取街景和待定位图像的特征。网络前一部分由全卷积神经网络组成,负责提取图像的密集特征。在全卷积网络之后加入特征筛选网络模块,该模块由平滑层、注意力层和白化层组成,用来对前一部分输出的密集特征进行筛选。其中,根据注意力层对特征的得分来提取具有代表性的特征。
[0014]步骤4:训练特征提取网络并提取街景的图像特征。使用训练数据集对步骤3中的网络进行训练。在训练数据输入网络前根据图像标签随机生成一系列二元组对,每个元组由一个基准图像、一个正样本和若干个负样本组成,训练时,图像的局部特征被聚合为全局池化特征且作为网络输出,并采用对比损失函数计算网络损失和迭代优化网络。直到网络收敛得到特征提取网络模型。通过该模型提取街景图像的局部图像特征,提取特征时,通过图像缩放提取每张图像的多尺度局部特征,提取到的特征文件内容包括:局部特征值,局部特征权重,图像缩放尺度,特征描述位置。
[0015]步骤5:生成特征码本并计算聚合特征。随机选取部分街景图像的局部特征,设置需要生成的聚类中心数然后进行特征聚类,生成特征码本。根据特征码本,计算待定位图像和所有参考数据集中街景图的聚合特征向量。其中,每张图像对应一个聚合特征。
[0016]步骤6:建立倒排索引并进行街景匹配。根据聚合特征和街景图像的一一对应关系,建立用于通过特征来查询街景图像的倒排索引表。将待定位图像的特征向量与街景图像的特征向量进行相似度计算,返回相似度高的街景特征并排序,并根据倒排索引表查询检索得到的街景特征以获得对应的街景图像。
[0017]步骤7:根据检索结果返回位置坐标。通过核密度估计方法,同时考虑检索结果的经纬度信息和相似度排名来估计空间中相似度分布的峰值,将其作为定位的候选结果,根据峰值大小返回待定位图像的坐标位置。
[0018]在上述的一种基于深度学习和街景图像的图像定位方法,步骤1中,待定位图像通常采用在室外场景中拍摄的图像,获取渠道包括但不限于新闻网站、社交媒体和照相机拍摄等。街景图像获取渠道包括但不限于网络街景地图服务、街景车辆采集等。街景图像根据原始数据的格式和变形方式的不同,预处理步骤包括但不限于图像拼接、图像裁剪、图像匹配和图像投影等,通常将每幅街景图转换为多张不同朝向的平面透视图。
[0019]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习和街景图像的图像定位方法,其特征在于,包括以下步骤:步骤1,街景与待定位图像数据获取与处理;步骤2,生成训练数据集;步骤3,构建特征提取网络:建立一个端到端的深度卷积神经网络来提取街景和待定位图像的特征,网络前一部分由全卷积神经网络组成,负责提取图像的密集特征,在全卷积网络之后加入特征筛选网络模块,所述特征筛选网络模块由平滑层、注意力层和白化层组成,用来对前一部分输出的密集特征进行筛选;步骤4,训练特征提取网络并提取街景的局部图像特征:使用训练数据集对步骤3中的特征提取网络进行训练,在训练数据输入特征提取网络前,根据图像标签随机生成一系列二元组对,每个元组由一个基准图像、一个正样本和若干个负样本组成,训练时,使用损失函数对网络进行迭代优化,直到网络收敛得到特征提取网络模型,通过该模型提取街景图像的局部图像特征;步骤5,生成特征码本并计算聚合特征:随机选取部分街景图像的局部图像特征,设置需要生成的聚类中心数然后进行特征聚类,生成特征码本,根据特征码本,计算待定位图像和所有参考数据集中街景图的聚合特征向量,每张图像对应一个聚合特征;步骤6,建立倒排索引并进行街景匹配:根据聚合特征和街景图像的一一对应关系,建立用于通过特征来查询街景图像的倒排索引表,将待定位图像的特征向量与街景图像的特征向量进行相似度计算,返回相似度高的街景特征并排序,并根据倒排索引表查询检索得到的街景特征以获得对应的街景图像;步骤7,根据检索结果返回位置坐标:通过核密度估计方法,同时考虑检索结果的经纬度信息和相似度排名来估计空间中相似度分布的峰值,将其作为定位的候选结果,根据峰值大小返回待定位图像的坐标位置。2.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法,其特征在于:步骤1的具体实现方式如下;步骤1.1,待定位图像可以通过新闻网站、社交媒体或相机拍摄方法获取,街景图像可以通过网络街景地图服务、街景车辆采集方法获取,另外收集街景对应的元数据,包括经纬度信息;步骤1.2,对街景图像进行预处理;对于等距全景图的处理,首先将街景图像进行拼接,获得完整的街景全景图,然后对街景全景图进行裁剪,去除上下两侧或左右两侧的无效值,从而将图像的长宽比保持为2:1;步骤1.3,生成街景透视图;根据设置的投影参数,将每张街景全景图变换为无变形的多张平面透视街景图,投影方法包含两步,首先将全景图投影到一个球面上,然后设置合适的投影参数将其投影在平面上,投影参数设置为,FOV:60
°
,Pitch:[5
°
20
°
35
°
]、Yaw:[0
°
45
°
90
°
135
°
180
°
225
°
270
°
315
°
],其中,FOV为视场角,Pitch为俯仰角,Yaw为航向角,根据三个参数的组合,每一张全景图可生成多张一定大小的街景图。3.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法,其特征在于:步骤2的具体实现方式如下;步骤2.1,收集谷歌地标数据集v2,根据元数据标签下载并存储数据,从中随机选取N类别的图像;
步骤2.2,对地标数据集进行清洗并生成训练集,提取N类中图像的SIFT图像特征,将一个类中的图像与本类的其他图像进行匹配,若匹配特征点总数量小于设定的阈值则将该图像剔除,反之则保留,利用清洗后的地标数据集生成训练集。4.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法,其特征在于:步骤3中,全卷积神经网络通过ResNet网络去除最后的池化层和全连接层这两层来构成,并将该网络之后连接特征筛选模块来对密集特征进行打分和选择,特征筛选模块由平滑层、注意力层和白化层组成;平滑层聚合密集特征中相邻的多个通道中较大的激活值,由M
×
M大小的平均池化层构成;注意力层为密集特征进行打分,筛选出得分较高的前n个局部特征,由l2归一化函数实现;白化层对特征进行降维和去相关性,由1
×
1大小带有偏置的卷积层构成,网络参数在网络训练前通过预训练网络提取的局部图像特征训练得到。5.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法,其特...

【专利技术属性】
技术研发人员:陈玉敏褚天佑徐真珍陈国栋陈娒杰陈玥君苏恒
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1