一种基于轻量化Transformer模型的相机重定位的系统技术方案

技术编号：40705995 阅读：6 留言：0更新日期：2024-03-22 11:05

本发明专利技术属于图像处理和相机重定位技术领域，尤其涉及基于轻量化Transformer模型的相机重定位的系统。所述系统包括图像采集模块，特征提取模块，序列组注意力SGA模块，EffLoc下采样模块，平均池化模块，相机姿态回归模块。本发明专利技术提出了EffLoc这种新颖的轻量级端到端视觉变换器架构，用于使用单个图像进行6自由度相机重定位，可以推广到大规模的现实环境中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理和相机重定位，尤其涉及基于轻量化transformer模型的相机重定位的系统。

技术介绍

1、相机重定位，即相机位姿回归，侧重于基于输入图像检索相机的三维位置和方向(6-dof)。它在智能系统中起着关键作用，涵盖了增强现实(ar)[1]/混合现实(mr)、送货无人机、机器人到自动驾驶[2]等多个领域。

2、相机定位方法在历史上主要依赖于图像结构和特征，通过将视觉观测与地图进行匹配[3]，建立了场景内2d像素和3d点之间的密集对应关系。随后，使用透视n点(pnp)求解器[4]或kabsch算法与ransac[5]来估计相机位姿。这些传统的重定位方法基本上依赖于匹配过程，包括将查询图像与参考图像数据库进行比较[6]。这些技术的计算和存储要求直接与数据库中样本点的数量相关。此外，这些方法的效力与匹配过程的质量密切相关，而匹配过程的质量又取决于相似性分数。基于深度学习的相机重定位方法可以通过深度神经网络直接从图像中实现端到端的姿态估计。例如，posenet使用基于卷积神经网络(cnn)的编码器从单个图像中提取特征作为向量嵌入，然后将其转化为6自由度(6-dof)姿态[7]。其他端到端学习方法，如，利用隐式地图数据库存储场景信息，消除了复杂的手工特征工程[8]。

3、传统上，基于深度学习的姿态估计在特征提取方面严重依赖于卷积神经网络(cnns)，这些网络在局部像素邻域内操作。然而，视觉变换器(vits)是最近的一个突破，它将图像分成多个块，并利用位置嵌入来捕捉全局依赖性。与cnn不同，vits

4、摄像机重定位是计算机视觉中的一个关键任务，用于增强现实、送货无人机、机器人技术和自动驾驶等领域，旨在从输入图像中估计摄像机的三维位置和方向(6-dof)。传统的摄像机姿态估计方法，如同时定位与地图构建(slam)，依赖于基于结构的方法，而近期的发展利用深度学习以端到端的方式直接从图像中生成摄像机姿态。

5、参考文献：

6、[1]r.castle,g.klein,and d.w.murray,“video-rate localization inmultiple maps for wearable augmented reality.”2008 12th ieee internationalsymposium on wearable computers,pittsburgh,pa,usa,2008,pp.15-22.

7、[2]royer,e.,lhuillier,m.,dhome,m.et al.“monocular vision for mobilerobot localization and autonomous navigation.”int j comput vision 74,2007,pp.237–260.

8、[3]c.campos,r.elvira,j.j.g.rodríguez,j.m.m.montiel and j.d.tardós,“orb-slam3:an accurate open-source library for visual,visual–inertial,andmultimap slam.”in ieee transactions on robotics,vol.37,no.6,dec.2021,pp.1874-1890.

9、[4]r.elvira,j.d.tardósand j.m.m.montiel,“orbslam-atlas:a robust andaccurate multi-map system.”2019ieee/rsj international conference onintelligent robots and systems(iros),macau,china,2019,pp.6253-6259[5]e.brachmann et al.,“dsac—differentiable ransac for camera localization.”2017ieee conference on computer vision and pattern recognition(cvpr),usa,2017,pp.2492-2500.

10、[6]wang,s.,kang,q.,she,r.,tay,w.p.,hartmannsgruber,a.,\&navarronavarro,d.“robustloc:robust camera pose regression in challenging drivingenvironments.”proceedings of the aaai conference on artificial intelligence,2023,pp.6209-621.

11、[7]a.kendall,m.grimes and r.cipolla,“posenet:a convolutional networkfor real-time 6-dof camera relocalization.”2015ieee international conferenceon computer vision(iccv),santiago,chile,2015,pp.2938-2946.

12、[8]s.wang,r.clark,h.wen and n.trigoni,“deepvo:towards end-to-endvisual odometry with deep recurrent convolutional neural networks.”2017ieeeinternational conference on robotics and automation(icra),singapore,2017,pp.2043-2050.

13、[9]y.shavit,r.ferens and y.keller,“learning multi-scene absolute poseregression with transformers.”2021ieee/cvf international conference oncomputer vision(iccv),canada,2021,pp.2713-2722.[10]j.liet al.,“next-vit:nextgeneration vision transformer for efficient deployment 本文档来自技高网...

【技术保护点】

1.一种基于轻量化Transformer模型的相机重定位的系统，其特征在于，其由下述方法步骤构建得到：

2.如权利要求1所述的基于轻量化Transformer模型的相机重定位的系统，其特征在于，S2步骤中，选择轻量级的Vision Transformer作为EffLoc的主干网络，使用在ImageNet-1K数据集上进行预训练的模型进行初始化，该数据集专门用于图像分类实验；给定一幅图像I∈RC×H×W，可以通过重叠补丁嵌入(Ope)提取特征X∈RC：

3.如权利要求1所述的基于轻量化Transformer模型的相机重定位的系统，其特征在于，S3步骤中，为轻量级的Vision Transformer引入了一个新的注意力模块，称为序列组注意力SGA，其中每个注意力头接收到完整特征的不同子集，有效地将注意力计算分解到注意力模块的多个头中，注意力机制表示为：

4.如权利要求1所述的基于轻量化Transformer模型的相机重定位的系统，其特征在于，S5步骤中，相机位置的估计方法如下：从有序级联组头引导的特征SGH(Xij)通过多层感知器(MLPs)回归6自由度摄像机姿态：

5.如权利要求4所述的基于轻量化Transformer模型的相机重定位的系统，其特征在于，所述单位四元数q＝(u,v)由标量u表示为四元数的实部，由三维向量v表示为虚部，定义如下：

6.根据权利要求1至5任一项所述的基于轻量化Transformer模型的相机重定位的系统，其特征在于，包括如下模块：

7.一种含有如权利要求1至6任一项的基于轻量化Transformer模型的相机重定位的系统的设备，其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序，所述计算机程序编码实现如权利要求1至6任一项所述的基于轻量化Transformer模型的相机重定位的系统。

8.如权利要求7所述的设备，其特征在于，还包括配套的用于图像拍照相机。

9.如权利要求8所述的设备，其特征在于，所述相机是两台Bumblebee XB3立体相机。

...

【技术特征摘要】

1.一种基于轻量化transformer模型的相机重定位的系统，其特征在于，其由下述方法步骤构建得到：

2.如权利要求1所述的基于轻量化transformer模型的相机重定位的系统，其特征在于，s2步骤中，选择轻量级的vision transformer作为effloc的主干网络，使用在imagenet-1k数据集上进行预训练的模型进行初始化，该数据集专门用于图像分类实验；给定一幅图像i∈rc×h×w，可以通过重叠补丁嵌入(ope)提取特征x∈rc：

3.如权利要求1所述的基于轻量化transformer模型的相机重定位的系统，其特征在于，s3步骤中，为轻量级的vision transformer引入了一个新的注意力模块，称为序列组注意力sga，其中每个注意力头接收到完整特征的不同子集，有效地将注意力计算分解到注意力模块的多个头中，注意力机制表示为：

4.如权利要求1所述的基于轻量化transformer模型的相机重定位的系统，其特征在于，s5步骤中，相机位置的估计方法如下：从...

【专利技术属性】
技术研发人员：肖震东，魏武，韦玉海，杨姗，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人