一种用于视觉定位的特征提取模型的训练方法及装置制造方法及图纸

技术编号:38828301 阅读:15 留言:0更新日期:2023-09-15 20:07
本发明专利技术涉及一种用于视觉定位的特征提取模型的训练方法,所述训练方法包括如下步骤:将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像,所述无标签的真实训练集图像包括景深图像和雾图像;根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图;通过自监督的方式同时提取图像特征点和描述子,将3DCC变换应用于训练阶段,通过模拟现实世界中计算机视觉模型将遇到的自然分布变化进行离线数据增强,提高了模型的健壮性;使用融合了自注意力和卷积混合模块的SP

【技术实现步骤摘要】
一种用于视觉定位的特征提取模型的训练方法及装置


[0001]本专利技术涉及视觉定位
,具体涉及一种用于视觉定位的特征提取模型的训练方法及装置。

技术介绍

[0002]视觉定位是一个估计6自由度(DoF)相机姿态的问题,由此获取一幅图像相对于给定的参考场景的表示。相机姿态用于描述相机在世界坐标系(3D空间)中的位置和方向。相较于全球定位系统(GPS)、激光雷达、毫米波雷达,将摄像头作为传感器部署在车辆上成本较低,且摄像头所拍摄的视觉内容丰富。因此视觉定位成为目前最主流的辅助自动驾驶定位技术之一。除了应用于自动驾驶外,视觉定位也是增强、混合虚拟现实的关键技术,还可以为环境感知和路径规划等提供参考和指导。增强现实(AR)技术可以通过投影将三维(3D)虚拟对象叠加到真实环境的图像上,以增强实时图像。增强现实在军事训练、教育、游戏和娱乐等方面具有广泛的应用前景。对于AR游戏来说,相机姿态的准确估计可以改善AR游戏体验。对于AR导航系统来说,视觉定位技术可以提供更高精度的定位来实现精确的AR交互显示,带来更加身临其境的实景导航体验。除此之外,视觉定位还可以应用于无人机驾驶,确保无人机稳定悬停,保证飞机姿态修正和基准定位。
[0003]综上所述,视觉定位是自动驾驶和增强虚拟现实等领域的核心技术之一,其在现实生活中有着广泛的应用前景。视觉定位方法主要包括基于图像检索的定位方法、基于结构的定位方法和基于分层的定位方法等。基于图像的检索定位方法精度较差,无法满足高精度应用场景的需求。基于结构的定位方法通常从数据库图像中建立SfM模型,在查询图像和点云之间建立2D

3D对应关系,然后利用这些对应关系进行相机姿态估计,从而计算查询图像的摄像机姿态。然而,其需要搜索每个3D点以查询特征,效率并不高。基于分层的定位方法简单有效,结合了基于图像检索和基于结构的定位方法的优点。基于分层的定位方法将定位问题划分为特征提取、全局检索、局部特征匹配和精细位姿估计四部分。通常,训练CNN网络用于特征提取,回归图像的局部描述子用于2D

3D匹配,使用先进的全局描述子用于图像检索,最后利用基于RANSAC的方法进行相机姿态估计。这种从粗到细的分层定位方法可以较好地平衡了定位过程中准确性和效率的问题。
[0004]近年来,视觉定位研究在一些公开数据集上取得了良好的效果,但仍面临着来自光照和环境变化的挑战。针对同一个场景,假设建图的时间是白天,而定位的时间是晚上,方法的定位精度较低。同样地,当建图与定位遇到的天气状况、季节不同时,视觉定位系统的精度也难以满足要求。其原因是在大的条件变化下,特征提取任务能够提取到的特征信息数量和质量是不稳定的。

技术实现思路

[0005]本专利技术的目的在于提供一种用于视觉定位的特征提取模型的训练方法及装置,旨在解决现有技术中特征提取任务能够提取到的特征信息数量和质量不稳定的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一方面提供了一种用于视觉定位的特征提取模型的训练方法,所述训练方法包括如下步骤:
[0008]将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像,所述无标签的真实训练集图像包括景深图像和雾图像;
[0009]根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图;
[0010]将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子;
[0011]根据所述第一特征点概率图、所述描述子以及所述第二特征点概率图计算得到最终损失。
[0012]另一方面提供了一种用于视觉定位的特征提取模型的训练系统,所述训练系统包括至少一个处理器;以及存储器,其存储有指令,当通过至少一个处理器来执行该指令时,实施按照前述的方法的步骤。
[0013]本专利技术的有益效果在于,通过自监督的方式同时提取图像特征点和描述子,将3DCC变换应用于训练阶段,通过模拟现实世界中计算机视觉模型将遇到的自然分布变化进行离线数据增强,提高了模型的健壮性;使用融合了自注意力和卷积混合模块的SP

AC模型推理真实训练集的伪标签,增强了伪标签的质量,从而提高了模型特征提取的质量且保持计算成本不变;应用于视觉定位中的特征提取任务,使得定位技术能够提取到的特征信息的数量和质量大大提高,从而有效提高了定位精度;本专利技术在提高定位精度的同时仅消耗较小的定位时间,较好地权衡了定位过程中准确性和效率。
附图说明
[0014]图1是本专利技术中训练系统的示意图;
[0015]图2是本专利技术中特征提取模型的训练过程示意图;
[0016]图3是本专利技术中训练步骤的示意图;
[0017]图4是本专利技术中实现定位的流程示意图;
[0018]图5是本专利技术中SP

AC模型的结构示意图;
[0019]图6是本专利技术中ACmix层的结构示意图;
[0020]图7是本专利技术中SuperPoint模型的结构示意图。
具体实施方式
[0021]下面将结合本专利技术的附图及实施方式,对本专利技术的技术方案进行清楚、完整地描述。
[0022]在目前相关的视觉定位方法中,视觉定位方法包括全局检索模型、特征提取模型、局部特征匹配模型和精细位姿估计模型,所述全局检索模型包括获取查询图像后得到所述查询图像在3D地图中的地理位置,所述特征提取模型包括获取查询图像后得到特征点及描述子,所述局部特征匹配模型包括获取所述地理位置和所述特征点及描述子后得到图像对应关系,所述精细位姿估计模型包括获取所述图形对应关系后得到6自由度相机姿态。
[0023]本专利技术的一些实施方式涉及一种用于视觉定位的特征提取模型的训练系统,如图1所示,所述训练系统包括至少一个处理器1;以及存储器2,其存储有指令,当通过至少一个处理器1来执行该指令时,用于实施以下方法实施方式中的所有步骤。
[0024]在一些用于视觉定位的特征提取模型的训练方法实施方式中,训练方法包括如如下步骤:
[0025]将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像,所述无标签的真实训练集图像包括景深图像和雾图像;
[0026]根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图;
[0027]将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子;
[0028]根据所述第一特征点概率图、所述描述子以及所述第二特征点概率图计算得到最终损失。
[0029]在一些用于视觉定位的特征提取模型的训练方法实施方式中,将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像包括:
[0030]将所述原始训练集图像中的场景分割为若干个层,并获取焦点区域;
[0031]根据所述若干个层与所述焦点区域的距离计算得到每个层的相应模糊级别得到若干个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于视觉定位的特征提取模型的训练方法,其特征在于,所述训练方法包括如下步骤:将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像,所述无标签的真实训练集图像包括景深图像和雾图像;根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图;将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子;根据所述第一特征点概率图、所述描述子以及所述第二特征点概率图计算得到最终损失。2.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法,其特征在于,所述将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像包括:将所述原始训练集图像中的场景分割为若干个层,并获取焦点区域;根据所述若干个层与所述焦点区域的距离计算得到每个层的相应模糊级别得到若干个模糊图像层,将若干个所述模糊图像层进行合成得到景深图像。3.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法,其特征在于,所述将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像还包括:将所述原始训练集图像以及所述原始训练集图像的深度图基于雾的标准光学模型得到雾图像;所述雾的标准光学模型的表达式如式(1)所示:I(x)=R(x)t(x)+A(1

t(x))(1)其中,I(x)表示像素x处生成的雾图像;R(x)表示原始训练集图像;A表示大气光;式(1)中,t(x)表示到达相机的光量的传输函数,其表达式如式(2)所示:t(x)=exp(

βd(x))(2)其中,d(x)表示原始训练集图像的深度图;β表示控制雾厚度的衰减系数。4.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法,其特征在于,所述根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图包括:将所述真实训练集图像通过几何变换得到变换训练集图像,每张所述真实训练集图像与其相应的变换训练集图像构成第一图像对;将所述第一图像对输入第一共享编码器模块得到降维特征图;将所述降维特征图输入第一特征点检测解码器模块得到第一特征点概率图。5.根据权利要求4所述的一种用于视觉定位的特征提取模型的训练方法,其特征在于,所述第一共享编码器模块包括ACmix层、第一Conv层、MaxPool层、第一非线性函数Relu层和第一BatchNorm归一化层,所述ACmix层被配置为:接收初始特征并通过卷积运算进行投影并重塑得到中间特征;将所述中间特征输入全连接层得到全层特征;将所述中间特征输入自注意力层得到组别特征;将所述全层特征和所述组别特征相加得到融合特征,并将融合特征进行输出。6.根据权利要求5所述的一种用于视觉定位的特征提取模型的训练方法,其特征在于,
所述第一特征点检测解码器模块被配置为:将降维特征图输入CRB模块得到第一特征图;将所述第一特征图输入Softmax层得到第二特征图;将所述第二特征图输入Reshape层得到第一特征点概率图;所述CRB模块包括第二Conv层、第二非线性函数Relu层和第二BatchNorm归一化层。7.根据权利要求6所述的一种用于视觉定位的特征提取模型的训练方法,其特征在于,所述将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子包括:根据所述真实训练集图像随机截取若干张尺寸相同的小图,并将其转换为灰度图;将所述灰度图依次通过随机高斯模糊、运动模糊和亮度变化得到若干张训练图像;将所述若干张训练图像通过几何变换得到若干张变换图像,每张所述训练图像与其相应的变换图像构成...

【专利技术属性】
技术研发人员:李艳凤张又陈后金孙嘉陈紫微
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1