一种模型训练以及视觉定位方法及装置制造方法及图纸

技术编号：25990265 阅读：21 留言：0更新日期：2020-10-20 18:58

本说明书公开了一种模型训练以及视觉定位方法及装置，服务器可先获取若干环境图像作为训练样本，并将采集环境图像时采集设备的真实位姿作为标注，之后针对每个训练样本，确定该训练样本对应在各特征通道中的图像特征分布，然后根据该图像特征分布，提取空间维度以及通道维度上的关键图像特征，确定注意力加权后的图像特征分布，最后根据注意力加权后的图像特征分布，确定预测位姿，以最小化预测位姿与真实位姿之间的差异调整该视觉定位模型中的模型参数。通过引入注意力机制，对各环境图像在空间维度以及通道维度的关键图像特征进行注意力加权，以增强对该关键图像特征的注意力，更有效的确定预测位姿，使模型收敛更快，精度更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练以及视觉定位方法及装置
本申请涉及视觉定位
，尤其涉及一种模型训练以及视觉定位方法及装置。
技术介绍
目前，无人驾驶设备在行驶过程中，可实时确定自身位置，并根据自身位置以及目的地，规划行驶路径。其中，在确定无人车自身位置时，可采用基于深度学习的视觉定位方法进行定位，避免了传统视觉定位方法中需要大量数据构建地图的弊端，通过训练好的视觉定位模型便可以根据输入的环境图像输出无人车的位姿。视觉定位过程中所采用的视觉定位模型通常由特征提取分支网络和定位分支网络两部分组成。并且，输入视觉定位模型的是环境图像，因此通常特征提取分支网络是卷积神经网络(ConvolutionalNeuralNetworks,CNN)，例如：视觉几何群网络(VisualGeometryGroupNetwork-19，VGG-19)以及残差网络(ResidualNetwork-50，ResNet-50)等模型，用于从环境图像中提取图像特征。定位分支网络通常是全连接网络，例如，多层感知机(MultilayerPerceptron，MLP)结构的网络，用于根据特征提取分支网络输出的图像特征确定无人车位姿。现有技术中在训练视觉定位模型时，服务器可先获取历史上采集的若干环境图像以及采集环境图像时的采集设备的真实位姿(包含位置坐标以及朝向)，并针对每个环境图像，将采集该环境图像时采集设备的真实位姿作为该环境图像的标注，根据该环境图像以及该环境图像标注的真实位姿，确定训练样本。之后针对每个训练样本，将该训练样本中包含的环境图像输入待...

【技术保护点】
1.一种模型训练方法，其特征在于，包括：/n获取若干环境图像以及采集环境图像时采集设备的真实位姿；/n针对每个环境图像，将该环境图像作为训练样本，将采集该环境图像时采集设备的真实位姿作为所述训练样本的标注；/n针对每个训练样本，将该训练样本作为输入，输入待训练的视觉定位模型的特征提取分支网络，确定该训练样本对应在各特征通道中的图像特征分布；/n针对每个特征通道，根据该特征通道的图像特征分布，确定该特征通道对应的第一注意力加权值，并根据该特征通道对应的第一注意力加权值，对该特征通道的各图像特征进行第一注意力加权，其中，该特征通道的图像特征的特征值越大，该特征通道对应的第一注意力加权值越大；/n针对图像特征分布中的每个位置，根据各特征通道进行第一注意力加权的图像特征，确定该位置对应的第二注意力加权值，并根据该位置对应的第二注意力加权值，对该位置对应的各图像特征进行第二注意力加权，其中，该位置对应的各特征通道的图像特征的特征值越大，该位置对应的第二注意力加权值越大；/n将进行第二注意力加权后的图像特征分布作为输入，输入所述待训练的视觉定位模型的定位分支网络，确定该训练样本的预测位姿；/n以最...

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：
获取若干环境图像以及采集环境图像时采集设备的真实位姿；
针对每个环境图像，将该环境图像作为训练样本，将采集该环境图像时采集设备的真实位姿作为所述训练样本的标注；
针对每个训练样本，将该训练样本作为输入，输入待训练的视觉定位模型的特征提取分支网络，确定该训练样本对应在各特征通道中的图像特征分布；
针对每个特征通道，根据该特征通道的图像特征分布，确定该特征通道对应的第一注意力加权值，并根据该特征通道对应的第一注意力加权值，对该特征通道的各图像特征进行第一注意力加权，其中，该特征通道的图像特征的特征值越大，该特征通道对应的第一注意力加权值越大；
针对图像特征分布中的每个位置，根据各特征通道进行第一注意力加权的图像特征，确定该位置对应的第二注意力加权值，并根据该位置对应的第二注意力加权值，对该位置对应的各图像特征进行第二注意力加权，其中，该位置对应的各特征通道的图像特征的特征值越大，该位置对应的第二注意力加权值越大；
将进行第二注意力加权后的图像特征分布作为输入，输入所述待训练的视觉定位模型的定位分支网络，确定该训练样本的预测位姿；
以最小化所述预测位姿与该训练样本标注的真实位姿之间的差异为优化目标，调整所述视觉定位模型中的模型参数，所述视觉定位模型用于进行视觉定位。

2.如权利要求1所述的方法，其特征在于，根据该特征通道的图像特征分布，确定该特征通道对应的第一注意力加权值，具体包括：
根据该特征通道的图像特征分布，确定该特征通道中各图像特征的特征值；
从确定出的各特征值中，确定最大的特征值，作为该特征通道对应的第一注意力加权值。

3.如权利要求1所述的方法，其特征在于，根据该特征通道的图像特征分布，确定该特征通道对应的第一注意力加权值，具体包括：
根据该特征通道的图像特征分布，确定该特征通道中各图像特征的特征值；
将确定出的各特征值的平均值，作为该特征通道对应的第一注意力加权值。

4.如权利要求1所述的方法，其特征在于，根据该特征通道对应的第一注意力加权值，对该特征通道的各图像特征进行第一注意力加权，具体包括：
针对每个图像特征，将该图像特征的特征值与该特征通道对应的第一注意力加权值相乘，确定第一注意力加权后的该图像特征的特征值。

5.如权利要求1所述的方法，其特征在于，根据各特征通道进行第一注意力加权的图像特征，确定该位置对应的第二注意力加权值，具体包括：
确定进行第一注意力加权后的各特征通道在该位置的图像特征的特征值；
将确定出的各特征值的平均值，作为该位置对应的第二注意力加权值。

6.如权利要求1所述的方法，其特征在于，根据各特征通道进行第一注意力加权的图像特征，确定该位置对应的第二注意力加权值，具体包括：
确定进行第一注意力加权后的各特征通道在该位置的图像特征的特征值；
从确定出的各特征值中，确定最大的特征值，作为该位置对应的第二注意力加权值。

7.如权利要求1所述的方法，其特征在于，根据该位置对应的第二注意力加权值，对该位置对应的各图像特征进行第二注意力加权，具体包括：
针对每个特征通道，将该位置对应该特征通道的图像特征的特征值与该位置对应的第二注意力加权值相乘，确定该位置对应的该特征通道经过第二注意力加权后的图像特征的特征值。

8.如权利要求1所述的方法，其特征在于，将进行第二注意力加权后的图像特征分布作为输入，具体包括：
将该训练样本对应在各特征通道中的图像特征分布与进行第二注意力加权后的图像特征分布进行级联，确定级联后的图像特征分布作为输入。

9.一种视觉定位方法，其特征在于，所述方法包括：
无人车采集当前周围环境的环境图像；
将所述环境图像作为输入，输入视觉定位模型的特征提取分支网络，确定所述环境图像对应在各特征通道中的图...

【专利技术属性】
技术研发人员：田咪，聂琼，申浩，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人