一种用于视觉定位的特征提取模型的训练方法及装置制造方法及图纸

技术编号：38828301 阅读：15 留言：0更新日期：2023-09-15 20:07

本发明专利技术涉及一种用于视觉定位的特征提取模型的训练方法，所述训练方法包括如下步骤：将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像，所述无标签的真实训练集图像包括景深图像和雾图像；根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图；通过自监督的方式同时提取图像特征点和描述子，将3DCC变换应用于训练阶段，通过模拟现实世界中计算机视觉模型将遇到的自然分布变化进行离线数据增强，提高了模型的健壮性；使用融合了自注意力和卷积混合模块的SP

全部详细技术资料下载

【技术实现步骤摘要】
一种用于视觉定位的特征提取模型的训练方法及装置

[0001]本专利技术涉及视觉定位
，具体涉及一种用于视觉定位的特征提取模型的训练方法及装置。

技术介绍

[0002]视觉定位是一个估计6自由度(DoF)相机姿态的问题，由此获取一幅图像相对于给定的参考场景的表示。相机姿态用于描述相机在世界坐标系(3D空间)中的位置和方向。相较于全球定位系统(GPS)、激光雷达、毫米波雷达，将摄像头作为传感器部署在车辆上成本较低，且摄像头所拍摄的视觉内容丰富。因此视觉定位成为目前最主流的辅助自动驾驶定位技术之一。除了应用于自动驾驶外，视觉定位也是增强、混合虚拟现实的关键技术，还可以为环境感知和路径规划等提供参考和指导。增强现实(AR)技术可以通过投影将三维(3D)虚拟对象叠加到真实环境的图像上，以增强实时图像。增强现实在军事训练、教育、游戏和娱乐等方面具有广泛的应用前景。对于AR游戏来说，相机姿态的准确估计可以改善AR游戏体验。对于AR导航系统来说，视觉定位技术可以提供更高精度的定位来实现精确的AR交互显示，带来更加身临其境的实景导航体验。除此之外，视觉定位还可以应用于无人机驾驶，确保无人机稳定悬停，保证飞机姿态修正和基准定位。
[0003]综上所述，视觉定位是自动驾驶和增强虚拟现实等领域的核心技术之一，其在现实生活中有着广泛的应用前景。视觉定位方法主要包括基于图像检索的定位方法、基于结构的定位方法和基于分层的定位方法等。基于图像的检索定位方法精度较差，无法满足高精度应用场景的需求。基于结构的定位方法通常从数据库图像中建立...

【技术保护点】

【技术特征摘要】
1.一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述训练方法包括如下步骤：将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像，所述无标签的真实训练集图像包括景深图像和雾图像；根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图；将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子；根据所述第一特征点概率图、所述描述子以及所述第二特征点概率图计算得到最终损失。2.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像包括：将所述原始训练集图像中的场景分割为若干个层，并获取焦点区域；根据所述若干个层与所述焦点区域的距离计算得到每个层的相应模糊级别得到若干个模糊图像层，将若干个所述模糊图像层进行合成得到景深图像。3.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像还包括：将所述原始训练集图像以及所述原始训练集图像的深度图基于雾的标准光学模型得到雾图像；所述雾的标准光学模型的表达式如式(1)所示：I(x)＝R(x)t(x)+A(1
‑
t(x))(1)其中，I(x)表示像素x处生成的雾图像；R(x)表示原始训练集图像；A表示大气光；式(1)中，t(x)表示到达相机的光量的传输函数，其表达式如式(2)所示：t(x)＝exp(
‑
βd(x))(2)其中，d(x)表示原始训练集图像的深度图；β表示控制雾厚度的衰减系数。4.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图包括：将所述真实训练集图像通过几何变换得到变换训练集图像，每张所述真实训练集图像与其相应的变换训练集图像构成第一图像对；将所述第一图像对输入第一共享编码器模块得到降维特征图；将所述降维特征图输入第一特征点检测解码器模块得到第一特征点概率图。5.根据权利要求4所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述第一共享编码器模块包括ACmix层、第一Conv层、MaxPool层、第一非线性函数Relu层和第一BatchNorm归一化层，所述ACmix层被配置为：接收初始特征并通过卷积运算进行投影并重塑得到中间特征；将所述中间特征输入全连接层得到全层特征；将所述中间特征输入自注意力层得到组别特征；将所述全层特征和所述组别特征相加得到融合特征，并将融合特征进行输出。6.根据权利要求5所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，
所述第一特征点检测解码器模块被配置为：将降维特征图输入CRB模块得到第一特征图；将所述第一特征图输入Softmax层得到第二特征图；将所述第二特征图输入Reshape层得到第一特征点概率图；所述CRB模块包括第二Conv层、第二非线性函数Relu层和第二BatchNorm归一化层。7.根据权利要求6所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子包括：根据所述真实训练集图像随机截取若干张尺寸相同的小图，并将其转换为灰度图；将所述灰度图依次通过随机高斯模糊、运动模糊和亮度变化得到若干张训练图像；将所述若干张训练图像通过几何变换得到若干张变换图像，每张所述训练图像与其相应的变换图像构成...

【专利技术属性】
技术研发人员：李艳凤，张又，陈后金，孙嘉，陈紫微，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人