一种基于特征降噪的视觉定位系统、方法技术方案

技术编号:34093252 阅读:16 留言:0更新日期:2022-07-11 21:42
本发明专利技术涉及一种基于特征降噪的视觉定位系统、方法,该系统包括:特征提取网络:对输入的图像进行特征提取获取图像特征;基于特征降噪的视觉定位网络:基于图像特征进行视觉定位,输出位姿向量序列,所述的位姿向量序列包括当前的估计位姿和未来若干个估计位姿。与现有技术相比,本发明专利技术能在离线情况下根据当前场景给出当前和未来的实时运动位姿预测,实现多定位点预测,在运动路线不固定的情况下同样具有可观的泛化能力。有可观的泛化能力。有可观的泛化能力。

【技术实现步骤摘要】
一种基于特征降噪的视觉定位系统、方法


[0001]本专利技术涉及一种视觉定位系统,尤其是涉及一种基于特征降噪的视觉定位系统。

技术介绍

[0002]现有的定位技术主要包括如下几种:
[0003]1、基于结构的视觉定位技术:基于结构的姿势回归器首先提取稀疏的图像特征。然后实现帧间估计,再通过特征点之间的匹配进行闭环检测,如基于尺度不变量特征变换(SIFT),基于定向FAST和基于旋转BRIEF(ORB)的视觉SLAM。SIFT和ORB特征由于其良好的鲁棒性、区分能力和快速的处理速度而被广泛用于视觉SLAM中。
[0004]2、深度学习模型PoseNet应用于相机重新定位领域:PoseNet改编自GoogLeNet,使用深度神经网络来学习图像姿势的隐性投影关系。通过向训练好的PoseNet输入一对图像,并对卷积层的激活单元进行丢弃操作,可以生成具有一定概率的姿势样本,从而完成图像定位。
[0005]3、基于结构化降维的视觉定位技术:提出了基于LSTM的深度学习框架来重构场景特征。这种方法使用深度框架来降低场景特征的尺度,因此与SfM相比,计算复杂度降低了几个数量级,从而使定位性能得到显著提高。
[0006]然而,上述定位技术具有如下缺陷:
[0007]1、基于结构的视觉定位技术需要昂贵的计算和存储资源,而且对初始帧的要求非常严格且不间断。相比之下,基于深度学习的姿势调节器具有更强的容错性,可以更好地处理传输中的帧丢失问题。此外,基于深度学习的姿势调节器需要很少的模型存储空间,在进行实时推理时计算速度更快。
[0008]2、基于深度学习的视觉定位技术由于现有数据集获取方法的限制,基于深度学习的姿势回归器在训练过程中容易出现过拟合现象。这些方法认为输入的图像是完全不相关的,并产生独立的姿势估计值,当应用于图像序列时,这些估计值会有无法忽略的图像噪声
[0009]3、实际工业应用场景下定位容易受到GPS攻击,基于GPS和惯性导航系统的融合控制决策:攻击者即使不完全依赖GPS信息,也可以利用图像攻击来影响参与决策的控制信号。现有一种图像攻击模型,该模型将肮脏的道路斑块识别为新的特定领域的威胁模型,并将攻击表述为一个优化问题,并解决了来自成对连续相机帧的攻击之间的相互依赖的挑战。即使有陀螺仪和加速度计等惯性导航传感器,这种攻击也成功地在1.3秒内将目标车辆驶离车道边界。他们产生的道路轨迹与良好的路径无法区分(无论是转弯角度还是道路曲率)。
[0010]4、视觉同步定位与建图(VSLAM)中,为了估计摄像机的连续姿态,基于结构的SLAM需要依靠收集的数据集来重建三维环境,然后保存环境图,这将是非常耗时耗力的,并且需要很高的初始帧。我们很难将不同的局部地图统一在同一个世界坐标系下,如果没有GPS校正,仍然只能完成局部定位的功能。

技术实现思路

[0011]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于特征降噪的视觉定位系统。
[0012]本专利技术的目的可以通过以下技术方案来实现:
[0013]一种基于特征降噪的视觉定位系统,该系统包括:
[0014]特征提取网络:对输入的图像进行特征提取获取图像特征;
[0015]基于特征降噪的视觉定位网络:基于图像特征进行视觉定位,输出位姿向量序列,所述的位姿向量序列包括当前的估计位姿和未来若干个估计位姿。
[0016]优选地,所述的基于特征降噪的视觉定位网络包括:
[0017]深度状态模块:用于位姿信息的一步预测;
[0018]深度传感模块:用于位姿信息的二步预测。
[0019]优选地,所述的位姿向量序列中的每个位姿由3D相机位置x和由四元数q表示的方向组成。
[0020]优选地,所述的深度状态模块和深度传感模块分别为基于GoogLeNet的神经网络,GoogLeNet神经网络的最后一层全连接层由7维扩充为28维,用以预测当前位姿以及预测未来的3个位姿。
[0021]优选地,所述的基于特征降噪的视觉定位网络训练的目标损失函数为:
[0022][0023]其中,loss(I)为基于特征降噪的视觉定位网络I的损失,x为3D相机位置标签值,q为方向标签值,为3D相机位置预测值,为方向预测值,β为比例因子,n为用于训练的图像总数,i表示用于训练的第i张图像,α
i
表示第i张图像对应的权重。
[0024]优选地,所述的比例因子β通过网格搜索进行微调。
[0025]优选地,在室内场景下,比例因子β取值在120到750之间。
[0026]优选地,在室外场景下,比例因子β取值在250到2000之间。
[0027]一种基于特征降噪的视觉定位方法,该方法基于所述的系统,包括:
[0028]将图片输入至特征提取网络,对输入的图像进行特征提取获取图像特征;
[0029]基于图像特征进行视觉定位,输出位姿向量序列,所述的位姿向量序列包括当前的估计位姿和未来若干个估计位姿。
[0030]优选地,所述的图片采用单目相机获取。
[0031]与现有技术相比,本专利技术具有如下优点:
[0032]一、解决基于事件的深度定位网络的特征噪声问题,提出一类卡尔曼特征平滑模块用于相机图像定位领,该模块嵌入端到端的姿态估计器中,输入的图片通过网络位姿推理网络以端到端的形式直接生成位姿。
[0033]二、提出用于改善特征噪点的网络的特定的迭代训练方式,在离线情况下根据当前场景给出当前和未来的实时运动位姿预测,即多定位点预测。其网络架构相对于基于事件的深度定位网络来说是很大程度的改进。
[0034]三、通过运动推理损失函数的联合优化,进一步提高了基于事件的深度定位网络
的重定位精度。
[0035]四、实验结果证明深度神经网络能够学习到移动设备在某一场景下的运动规律,具有运动推理的能力。视觉运动推理网络在运动路线不固定的情况下同样具有可观的泛化能力;
[0036]五、由于有些训练集的图片数量有限,本专利技术采用迁移学习的方式解决训练集稀疏带来的过拟合问题。
附图说明
[0037]图1为本专利技术一种基于特征降噪的视觉定位系统的结构示意图;
[0038]图2为本专利技术一种基于特征降噪的视觉定位系统的结构框图;
[0039]图3为视觉定位网络的整体迭代的理论模型。
具体实施方式
[0040]下面结合附图和具体实施例对本专利技术进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本专利技术并不意在对其适用物或其用途进行限定,且本专利技术并不限定于以下的实施方式。
[0041]实施例
[0042]本专利技术主要介绍一种基于特征降噪的视觉定位系统,一般地,运动目标物在运动过程中从自身角度拍摄周围环境的一系列图片,系统通过拍摄的图片可以预测拍摄时刻运动目标物的位姿以及运动目标物未来的运动路径。具体地,在我们的视觉定位网络中,通过对数据集的学习(输入图片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征降噪的视觉定位系统,其特征在于,该系统包括:特征提取网络:对输入的图像进行特征提取获取图像特征;基于特征降噪的视觉定位网络:基于图像特征进行视觉定位,输出位姿向量序列,所述的位姿向量序列包括当前的估计位姿和未来若干个估计位姿。2.根据权利要求1所述的一种基于特征降噪的视觉定位系统,其特征在于,所述的基于特征降噪的视觉定位网络包括:深度状态模块:用于位姿信息的一步预测;深度传感模块:用于位姿信息的二步预测。3.根据权利要求2所述的一种基于特征降噪的视觉定位系统,其特征在于,所述的位姿向量序列中的每个位姿由3D相机位置x和由四元数q表示的方向组成。4.根据权利要求3所述的一种基于特征降噪的视觉定位系统,其特征在于,所述的深度状态模块和深度传感模块分别为基于GoogLeNet的神经网络,GoogLeNet神经网络的最后一层全连接层由7维扩充为28维,用以预测当前位姿以及预测未来的3个位姿。5.根据权利要求3所述的一种基于特征降噪的视觉定位系统,其特征在于,所述的基于特征降噪的视觉定位网络训练的目标损失函数为:其中,loss(I)为...

【专利技术属性】
技术研发人员:刘刚肖甜甜
申请(专利权)人:上海电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1