位姿预测方法、装置、电子设备和介质制造方法及图纸

技术编号:35785948 阅读:17 留言:0更新日期:2022-12-01 14:33
本申请提出一种位姿预测方法、装置、电子设备和介质,涉及图像处理技术领域。该方法包括:确定与待查询图像的场景相似的多个参考图像;确定待查询图像与多个参考图像之间的位姿差异信息;将位姿差异信息输入至视觉定位网络中进行预测,确定待查询图像对应的目标位姿信息。通过缩小图像的处理范围,减少与应用场景的语义信息的相关性,并明确待查询图像与多个参考图像之间的位姿差异信息,进一步缩小图像的处理范围;将位姿差异信息输入至视觉定位网络中进行预测,确定待查询图像对应的目标位姿信息,以使用视觉定位网络对位姿差异信息进行处理,获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息,提升对目标的定位准确性。性。性。

【技术实现步骤摘要】
位姿预测方法、装置、电子设备和介质


[0001]本申请涉及图像处理
,具体涉及一种位姿预测方法、装置、电子设备和介质。

技术介绍

[0002]目前,针对视觉定位的算法,多是与应用场景的语义信息相关,在不同的数据集上利用其语义信息对定位模型进行训练,可获得不同的视觉定位模型。
[0003]但是,在实际应用中,不同的视觉定位模型无法适用于多样性的应用场景中。例如,在在增强现实(Augmented Reality,AR)的导航过程中,通常采用云端服务器对图像特征进行匹配,但由于用户的位置是实时变化的,其所处场景具有多样性,若使用某种特定的应用场景的定位模型对用户进行定位,无法实现应用场景的泛化处理,降低了定位的准确性。

技术实现思路

[0004]本申请提供一种位姿预测方法、装置、电子设备和介质。
[0005]本申请实施例提供一种位姿预测方法,方法包括:确定与待查询图像的场景相似的多个参考图像;确定所述待查询图像与多个所述参考图像之间的位姿差异信息;将所述位姿差异信息输入至视觉定位网络中进行预测,确定所述待查询图像对应的目标位姿信息。
[0006]本申请实施例提供一种位姿预测装置,其包括:参考图像确定模块,被配置为确定与待查询图像的场景相似的多个参考图像;位姿差异信息确定模块,被配置为确定所述待查询图像与多个所述参考图像之间的位姿差异信息;预测模块,被配置为将所述位姿差异信息输入至视觉定位网络中进行预测,确定所述待查询图像对应的目标位姿信息。
[0007]本申请实施例提供一种电子设备,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本申请实施例中的任意一种位姿预测方法。
[0008]本申请实施例提供了一种可读存储介质,该可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本申请实施例中的任意一种位姿预测方法。
[0009]根据本申请实施例的位姿预测方法、装置、电子设备和介质,通过确定与待查询图像的场景相似的多个参考图像,缩小图像的处理范围,减少与应用场景的语义信息的相关性;确定待查询图像与参考图像之间的位姿差异信息,能够明确待查询图像与多个参考图像之间的差异性,进一步缩小图像的处理范围;将位姿差异信息输入至视觉定位网络中进行预测,确定待查询图像对应的目标位姿信息,以使用视觉定位网络对位姿差异信息进行处理,获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息,提升对目标的定位准确性。
[0010]关于本申请的以上实施例和其他方面以及其实现方式,在附图说明、具体实施方
式和权利要求中提供更多说明。
附图说明
[0011]图1示出本申请一实施例提供的位姿预测方法的流程示意图。
[0012]图2示出本申请实施例提供的位姿差异信息的确定方法的流程示意图。
[0013]图3示出本申请实施例提供的位姿预测装置的组成方框图。
[0014]图4示出本申请一实施例提供的位姿预测设备的组成方框图。
[0015]图5示出本申请实施例提供的使用视觉定位网络模型对待查询图的位姿进行预测的示意图。
[0016]图6示出能够实现根据本专利技术实施例的位姿预测方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
[0017]为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0018]通常,对于给定的图像,需要获取该图像对应的参考场景,并基于该参考场景确定该图像对应的位置。对图像进行视觉定位的过程中,通常需要依赖于三维环境地图的重建,使用局部特征与待处理图像进行匹配,从而建立待处理图像和三维环境地图之间的对应关系。但是,不同的视觉定位模型无法适用于多样性的应用场景中,降低了定位准确性。
[0019]图1示出本申请一实施例提供的位姿预测方法的流程示意图。该方法可应用于位姿预测装置。如图1所示,本申请实施例中的位姿预测方法包括但不限于以下步骤。
[0020]步骤S101,确定与待查询图像的场景相似的多个参考图像。
[0021]其中,通过确定与待查询图像的场景相似的多个参考图像,可缩小图像的处理范围,减少与应用场景的语义信息的相关性。
[0022]步骤S102,确定待查询图像与多个参考图像之间的位姿差异信息。
[0023]其中,位姿差异信息用于表征待查询图像中的目标与多个参考图像中的目标之间的位姿区别信息。
[0024]例如,通过将待查询图像和多个参考图像进行对比,以明确待查询图像中的目标与多个参考图像中的目标之间的位姿差异性,从而可进一步缩小图像的处理范围,提升对图像的预测准确性。
[0025]步骤S103,将位姿差异信息输入至视觉定位网络中进行预测,确定待查询图像对应的目标位姿信息。
[0026]其中,视觉定位网络模型是基于多种不同应用场景的图像特征进行训练获得的网络模型。
[0027]例如,应用场景可以包括:基于室内环境的应用场景、基于室外环境的应用场景、以及基于不同环境的切换过程中的应用场景等。如,用户在博物馆中,基于该博物馆的地图进行导览的场景;用户在某大型商场或写字楼中进行的AR定位和/或导航等场景;用户在某公园或游乐场中的定位和导航等应用场景;用户从某商场出来进入公共露天场所的过程中
的定位和/或导航等场景。
[0028]在本实施例中,通过确定与待查询图像的场景相似的多个参考图像,缩小图像的处理范围,减少与应用场景的语义信息的相关性;确定待查询图像与参考图像之间的位姿差异信息,能够明确待查询图像与多个参考图像之间的差异性,进一步缩小图像的处理范围;将位姿差异信息输入至视觉定位网络中进行预测,确定待查询图像对应的目标位姿信息,以使用视觉定位网络对位姿差异信息进行处理,获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息,提升对目标的定位准确性。
[0029]例如,其中的视觉定位网络模型可以基于深度神经网络(Deep Neural Network,DNN)确定二维像素位置和三维空间中的预设目标之间的对应关系,从而加快对待查询图像对应的目标位姿的估计速度。
[0030]又例如,视觉定位网络模型是基于端到端的视觉定位算法实现的网络模型。通过端到端的视觉定位算法,能够使获得的视觉定位网络模型较好地理解图像中的几何原则、鲁棒地应对目标物体的外观和结构变化系信息;而非简单的使视觉定位网络模型学习基本的几何关系,因此,在该端到端的视觉定位算法对差异信息进行处理的过程中,可实现对待查询图像中的目标进行与应用场景无关的位姿估计,提升对目标位姿估计的准确性。
[0031]可采用由粗到细的策略来进行位姿估计,并预测位姿对应的场景坐标。能够更好地对全局场景的上下文进行编码,并加块计算速度。例如,先生成一个粗略的场景坐标,作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种位姿预测方法,其特征在于,所述方法包括:确定与待查询图像的场景相似的多个参考图像;确定所述待查询图像与多个所述参考图像之间的位姿差异信息;将所述位姿差异信息输入至视觉定位网络中进行预测,确定所述待查询图像对应的目标位姿信息。2.根据权利要求1所述的方法,其中,所述确定与待查询图像的场景相似的多个参考图像,包括:依据所述待查询图像对图像数据库进行图像检索,获得多个与所述待查询图像在同一位置范围内的待处理图像;依据预设视觉聚类算法对多个所述待处理图像进行分析,获得多个与所述待查询图像对应的位置信息相似的图像,作为所述参考图像。3.根据权利要求2所述的方法,其特征在于,所述确定所述待查询图像与多个所述参考图像之间的位姿差异信息,包括:以特征金字塔的方式,分别对所述待查询图像和多个所述参考图像进行特征提取,获得所述待查询图像的特征金字塔、以及多个与所述参考图像对应的场景特征金字塔;将所述待查询图像的特征金字塔中的图像特征,分别与多个所述场景特征金字塔中的场景特征进行对齐,确定所述位姿差异信息。4.根据权利要求3所述的方法,其特征在于,所述目标位姿包括:平移自由度和/或旋转自由度;其中,所述平移自由度包括:基于世界坐标系中的X轴的前后移动自由度、Y轴的左右移动自由度和Z轴的上下移动自由度中的至少一种;所述旋转自由度包括纵摇自由度、横摇自由度和垂摇自由度中的至少一种;所述差异位姿信息包括:平移向量信息和/或旋转矩阵信息,所述平移向量信息用于表征所述平移自由度的信息,所述旋转矩阵信息为基于矩阵的方式表征所述旋转自由度的信息;所述将所述位姿差异信息输入至视觉定位网络中进行预测,确定所述待查询图像对应的目标位姿信息,包括:依据非线性最小二乘算法对所述平移向量信息和/或所述旋转矩阵信息进行估计,获得所述目标位姿。5.根据权利要求3所述的方法,其特征在于,所述以特征金字塔的方式,分别对所述待查询图像和多个所述参考图像进行特征提取,获得所述待查询图像的特征金字塔、以及多个与所述参考图像对应的场景特征金字塔,包括:将所述待查询图像输入至深度残差网络中进行特征提取,获得所述待查询图像的特征金字塔,其中,所述深度残差网络包括多个分辨率不同的特征提取模块,所述分辨率的数量与所述特征金字塔的层数相同;将多个所述参考图像分别输入至所述深度残差网络中进行特征提取,获得多个所述场景特征金字塔,其中,所述场景特征金字塔包括室内场景特征金字塔和/或室外场景特征金字塔。6.根据权利要求5所述的方法,其特征在于,所述将所述待查询图像输入至深度残差网络中进行特征提取,获得所述待查询图像的特征金字塔,包括:
采用预设数量的分辨率,分别对所述待查询图像进行特征提取,获得多个待处理特征,其中,每个所述待处理特征对应的分辨率不同;依据所述预设数量的分辨率,对预设场景坐...

【专利技术属性】
技术研发人员:施文哲陆平盛斌孟子尧赵义成
申请(专利权)人:中兴通讯南京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1