一种增强可靠性的单目视觉定位方法技术

技术编号:27658543 阅读:33 留言:0更新日期:2021-03-12 14:24
本发明专利技术提出一种增强可靠性的单目视觉定位方法,包括以下步骤:(1)通过深度卷积神经网络DCNN对输入图像提取特征图;(2)提出一种多层融合的双线性模型从特征图中进行特征嵌入得到特征向量;(3)使用一个可靠性感知的姿态回归层从特征向量中回归输入图像的相机位置和朝向的预测值和不确定度。与现有技术相比,本发明专利技术具有预测结果可靠性更强,准确性更高等优点。

【技术实现步骤摘要】
一种增强可靠性的单目视觉定位方法
本专利技术涉及视觉定位领域,提出了一种增强可靠性的单目视觉定位方法。
技术介绍
视觉定位,又称相机重定位,是指输入一张图片计算这个图像对应相机6DoF(6DegreeofFreedom)的相机姿态,因此,也被称为相机姿态回归或者相机姿态估计。在增强现实、自动驾驶、机器人等领域,由视觉传感器的图像获得视觉传感器在3D世界的位置是执行下一步任务(例如虚拟内容显示、路径规划、人机交互等)的基础。由于视觉传感器成本低且应用广泛,基于视觉的定位方法是重要的实用价值。视觉定位问题在SLAM和StructurefromMotion等系统领域有着很长的历史。借助SLAM和StructurefromMotion系统构建一个描绘场景的3D模型,给定一张图像,提取它的局部特征与3D模型上的点云特征进行匹配(2D-3D匹配),根据匹配关系求解PnP问题得到给定图像在场景中的相机姿态。这类需要构建场景结构3D模型的方法被称为基于结构的方法,由于采用多视几何对场景进行精确建模,这类方法的定位精确最高。另一种无需建立3D模型的方法是基于检索的方法,它通过一个地理位置图像数据库存储场景图像和对应的位置标签,给定一张图像使用图像检索技术识别数据库中与给定图像最相似的图像,用检索到的图像的位置标签近似给定图像的位置。为了获得更精确的位置信息,可以检索多张图像,用多张图像的位置信息近似给定图像的位置。基于检索的视觉定位方法,又被称为场景识别,通常用于大尺度场景的粗糙定位。而对于城市及的大尺度的视觉定位任务,通常是基于检索方法和基于结构方法结合的方法,也就是首先检索与输入图像最相似的N张图像,使用基于结构的方法求出输入图像的对应的相机姿态。这种方法无疑进一步增加了存储成本和计算负担。在深度学习广泛应用之前,无论是基于结构的方法还是基于检索的方法,通常都是使用手工特征,例如SIFT、ORB等。在深度学习兴起之后,基于结构的方法使用的局部特征由手工提取的局部特征被CNN的局部特征取代,基于检索的方法则使用CNN提取的全局图像描述符,CNN强大的表征能力进一步提高了视觉定位的性能,尤其是在光照变化等场景下的定位精度,但是存储成本、计算负担与传统方法相比没有明显优势。另一方面,基于深度学习端到端的视觉定位成为了研究热点,这种方法被称为相机姿态回归。相机姿态回归方法使用CNN直接回归6DoF的相机姿态,以PoseNet为代表的相机姿态回归方法,在训练时需要使用StructurefromMotion等方法生成GroundTruth,而在推断时只需要存储网络模型,无需额外的数据存储,且由于CNN能够并行运算,基于深度学习的方法具有占用空间小、推断速度快的优势。但是当前深度学习的视觉定位方法在模型层面存在不可靠的因素,例如使用平均池化和全连接层将CNN提取的特征图进行特征嵌入,然而平均池化使得一些与视觉定位无关的视觉元素被聚合到特征向量中而产生不可靠的结果。因此当前的视觉定位方法存在定位精度低,定位结果不可靠的缺点。
技术实现思路
本专利技术解决的问题:克服现有技术的不足,提供一种增强可靠性的单目视觉定位方法,提高姿态回归方法的精确度,实现相比现有方法更高精确度和更高可靠性的视觉定位,且具有传感器成本低、运算速度快等优点。最近的理论证明视觉定位网络模型的姿态回归层的权重是一组基姿态的集合,从CNN提取的特征图嵌入的特征向量是基姿态的权重,输出的定位结果是基姿态的加权。当前深度学习的视觉定位方法使用平均池化和全连接层将CNN提取的特征图进行特征嵌入得到用于回归相机姿态的特征向量,然而平均池化使得一些与视觉定位无关的视觉元素被聚合到特征向量中而产生不可靠的结果,因此这种特征嵌入方法对于视觉定位任务而言并不可靠。特征嵌入应该关注能够区分相机姿态变化的视觉区域从而得到更精确的相机姿势估计,同时这些视觉区域应该是在不同位置采集的内容相似的两幅图像具有显著区别的视觉区域。从这些视觉区域对应的特征图嵌入得到的特征向量才能得到可靠的定位结果。此外,基姿态集合,即姿态回归层的权重,是通过随机梯度下降优化方法从训练数据中学习的对数据中可能存在的相机姿态的近似,因此基姿态集合,即全连接的回归层存在模型不确定性。因此,估计结果的不确定性并且尽可能地提高定位结果的可靠性是非常重要的。为了解决当前视觉定位网络模型在特征嵌入和姿态回归层中存在不可靠因素的问题,本专利技术提出一种能够增强定位结果可靠性的特征嵌入模块以及一种基于随机采样的姿态回归层,有效地提升了定位结果的可靠性和精确度。本专利技术的技术方案为:本专利技术的一种基于可区分性特征的单目视觉定位方法,如图1所示,包括以下步骤:(1)通过34层的残差卷积神经网络模型即ResNet34的全卷积层对输入图像提取特征图;(2)采用一种多层融合的双线性模型从特征图中进行特征嵌入得到特征向量;(3)使用一个可靠性感知的姿态回归层,从特征向量随机采样t组特征向量并输入到全连接的回归层输出t组3维向量和t组4维向量,计算t组向量的均值和协方差得到3维均值向量、4维均向量值、维度为3x3的协方差矩阵和维度为4x4的协方差矩阵,3维均值向量和4维均值向量作为分别表示拍摄图像的相机在场景中的位置和朝向,3x3协方差的迹为位置的不确定度,4x4协方差的迹为朝向的不确定度;此外,根据单位四元数的定义,对表示相机朝向的4维向量最后需要进行L2-Normalize操作使得4维向量的2范数为1,完成视觉定位任务。所述步骤(1)具体实现过程包括:首先对输入图像进行预处理,即将输入图像所有像素值除以255,使得所有像素值的取值范围为[0,1],然后分别减去和除以从ImageNet数据集上计算的均值和方差,最后将输入图像的大小调整为256x256输入到特征提取网络中,使用去除全局平均池化和Softmax分类层的ResNet34作为特征提取网络,256x256输入图像经过第一个卷积层conv1输出128x128特征图,后续四个卷积层conv2-5由基础残差块串联组成,基础残差块是由两个3x3卷积组成的残差块,卷积层conv2包含两个基础残差块,输入128x128的特征图输出64x64特征图,卷积层conv3包含四个基础残差块,输入64x64的特征图输出32x32特征图,卷积层conv4包含六个基础残差块,输入32x32的特征图输出16x16特征图,卷积层conv5包含四个基础残差块,输入16x16的特征图输出8x8特征图。所述步骤(2)具体实现包括:引入双线性池化技术进行特征增强,双线性池化通过计算来自CNN的特征图的外积来形成全局特征向量;为了降低参数量并防止过拟合,使用一种分解的双线性池化:其中,x是CNN输出的特征图,z是双线性池化从特征图x聚合得到的特征向量,U,V为低秩投影矩阵。将分解的双线性特征聚合方法应用于两种不同特征的融合,提出一个多层融合的双线性模型,多层融合的双线性模型通过将ResNet34最后残差块conv5_3输出的双线性特征与前两个残差块本文档来自技高网
...

【技术保护点】
1.一种基于增强可靠性的单目视觉定位方法,其特征在于,包括以下步骤:/n(1)通过34层的残差卷积神经网络模型即ResNet34的全卷积层对输入图像提取特征图;/n(2)采用一种多层融合的双线性模型从特征图中进行特征嵌入得到特征向量;/n(3)使用一个可靠性感知的姿态回归层,从特征向量随机采样t组特征向量并输入到全连接的回归层输出t组3维向量和t组4维向量,计算t组向量的均值和协方差得到3维均值向量、4维均向量值、维度为3x3的协方差矩阵和维度为4x4的协方差矩阵,3维均值向量和4维均值向量作为分别表示拍摄图像的相机在场景中的位置和朝向,3x3协方差的迹为位置的不确定度,4x4协方差的迹为朝向的不确定度;此外,根据单位四元数的定义,对表示相机朝向的4维向量最后需要进行L2-Normalize操作使得4维向量的2范数为1,完成视觉定位任务。/n

【技术特征摘要】
1.一种基于增强可靠性的单目视觉定位方法,其特征在于,包括以下步骤:
(1)通过34层的残差卷积神经网络模型即ResNet34的全卷积层对输入图像提取特征图;
(2)采用一种多层融合的双线性模型从特征图中进行特征嵌入得到特征向量;
(3)使用一个可靠性感知的姿态回归层,从特征向量随机采样t组特征向量并输入到全连接的回归层输出t组3维向量和t组4维向量,计算t组向量的均值和协方差得到3维均值向量、4维均向量值、维度为3x3的协方差矩阵和维度为4x4的协方差矩阵,3维均值向量和4维均值向量作为分别表示拍摄图像的相机在场景中的位置和朝向,3x3协方差的迹为位置的不确定度,4x4协方差的迹为朝向的不确定度;此外,根据单位四元数的定义,对表示相机朝向的4维向量最后需要进行L2-Normalize操作使得4维向量的2范数为1,完成视觉定位任务。


2.根据权利要求1所述的一种基于增强可靠性的单目视觉定位方法,其特征在于,所述步骤(1)具体实现过程包括:
首先对输入图像进行预处理,即将输入图像所有像素值除以255,使得所有像素值的取值范围为[0,1],然后分别减去和除以从ImageNet数据集上计算的均值和方差,最后将输入图像的大小调整为256x256输入到特征提取网络中,使用去除全局平均池化和Softmax分类层的ResNet34作为特征提取网络,256x256输入图像经过第一个卷积层conv1输出128x128特征图,后续四个卷积层conv2-5由基础残差块串联组成,基础残差块是由两个3x3卷积组成的残差块,卷积层conv2包含两个基础残差块,输入128x128的特征图输出6...

【专利技术属性】
技术研发人员:百晓张鹏程张亮王欣刘祥龙
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1