一种模型训练以及视觉定位方法及装置制造方法及图纸

技术编号:25990265 阅读:21 留言:0更新日期:2020-10-20 18:58
本说明书公开了一种模型训练以及视觉定位方法及装置,服务器可先获取若干环境图像作为训练样本,并将采集环境图像时采集设备的真实位姿作为标注,之后针对每个训练样本,确定该训练样本对应在各特征通道中的图像特征分布,然后根据该图像特征分布,提取空间维度以及通道维度上的关键图像特征,确定注意力加权后的图像特征分布,最后根据注意力加权后的图像特征分布,确定预测位姿,以最小化预测位姿与真实位姿之间的差异调整该视觉定位模型中的模型参数。通过引入注意力机制,对各环境图像在空间维度以及通道维度的关键图像特征进行注意力加权,以增强对该关键图像特征的注意力,更有效的确定预测位姿,使模型收敛更快,精度更高。

【技术实现步骤摘要】
一种模型训练以及视觉定位方法及装置
本申请涉及视觉定位
,尤其涉及一种模型训练以及视觉定位方法及装置。
技术介绍
目前,无人驾驶设备在行驶过程中,可实时确定自身位置,并根据自身位置以及目的地,规划行驶路径。其中,在确定无人车自身位置时,可采用基于深度学习的视觉定位方法进行定位,避免了传统视觉定位方法中需要大量数据构建地图的弊端,通过训练好的视觉定位模型便可以根据输入的环境图像输出无人车的位姿。视觉定位过程中所采用的视觉定位模型通常由特征提取分支网络和定位分支网络两部分组成。并且,输入视觉定位模型的是环境图像,因此通常特征提取分支网络是卷积神经网络(ConvolutionalNeuralNetworks,CNN),例如:视觉几何群网络(VisualGeometryGroupNetwork-19,VGG-19)以及残差网络(ResidualNetwork-50,ResNet-50)等模型,用于从环境图像中提取图像特征。定位分支网络通常是全连接网络,例如,多层感知机(MultilayerPerceptron,MLP)结构的网络,用于根据特征提取分支网络输出的图像特征确定无人车位姿。现有技术中在训练视觉定位模型时,服务器可先获取历史上采集的若干环境图像以及采集环境图像时的采集设备的真实位姿(包含位置坐标以及朝向),并针对每个环境图像,将采集该环境图像时采集设备的真实位姿作为该环境图像的标注,根据该环境图像以及该环境图像标注的真实位姿,确定训练样本。之后针对每个训练样本,将该训练样本中包含的环境图像输入待训练的视觉定位模型的特征提取分支网络中,确定该环境图像的图像特征,再将该环境图像的图像特征输入待训练的视觉定位模型的定位分支网络中,确定该环境图像的预测位姿。以最小化该预测位姿与该训练样本中的真实位姿为优化目标,调整待训练的视觉定位模型中的模型参数。但是,现有技术对视觉定位模型进行模型训练的方法,往往需要经过较多次的迭代过程,才能调整得到合适的模型参数,训练出较为精确的视觉定位模型,而迭代次数越多,模型训练的时间越长,因此现有技术中训练出较为精确的视觉定位模型往往需要以训练时间为代价,消耗较长的训练时间。
技术实现思路
本说明书实施例提供一种模型训练以及视觉定位方法及装置,用于部分解决现有技术中存在的上述问题。本说明书实施例采用下述技术方案:本说明书提供的一种模型训练方法,包括:获取若干环境图像以及采集环境图像时采集设备的真实位姿;针对每个环境图像,将该环境图像作为训练样本,将采集该环境图像时采集设备的真实位姿作为所述训练样本的标注;针对每个训练样本,将该训练样本作为输入,输入待训练的视觉定位模型的特征提取分支网络,确定该训练样本对应在各特征通道中的图像特征分布;针对每个特征通道,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,并根据该特征通道对应的第一注意力加权值,对该特征通道的各图像特征进行第一注意力加权,其中,该特征通道的图像特征的特征值越大,该特征通道对应的第一注意力加权值越大;针对图像特征分布中的每个位置,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,并根据该位置对应的第二注意力加权值,对该位置对应的各图像特征进行第二注意力加权,其中,该位置对应的各特征通道的图像特征的特征值越大,该位置对应的第二注意力加权值越大;将进行第二注意力加权后的图像特征分布作为输入,输入所述待训练的视觉定位模型的定位分支网络,确定该训练样本的预测位姿;以最小化所述预测位姿与该训练样本标注的真实位姿之间的差异为优化目标,调整所述视觉定位模型中的模型参数,所述视觉定位模型用于进行视觉定位。可选地,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,具体包括:根据该特征通道的图像特征分布,确定该特征通道中各图像特征的特征值;从确定出的各特征值中,确定最大的特征值,作为该特征通道对应的第一注意力加权值。可选地,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,具体包括:根据该特征通道的图像特征分布,确定该特征通道中各图像特征的特征值;将确定出的各特征值的平均值,作为该特征通道对应的第一注意力加权值。可选地,根据该特征通道对应的第一注意力加权值,对该特征通道的各图像特征进行第一注意力加权,具体包括:针对每个图像特征,将该图像特征的特征值与该特征通道对应的第一注意力加权值相乘,确定第一注意力加权后的该图像特征的特征值。可选地,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,具体包括:确定进行第一注意力加权后的各特征通道在该位置的图像特征的特征值;将确定出的各特征值的平均值,作为该位置对应的第二注意力加权值。可选地,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,具体包括:确定进行第一注意力加权后的各特征通道在该位置的图像特征的特征值;从确定出的各特征值中,确定最大的特征值,作为该位置对应的第二注意力加权值。可选地,根据该位置对应的第二注意力加权值,对该位置对应的各图像特征进行第二注意力加权,具体包括:针对每个特征通道,将该位置对应该特征通道的图像特征的特征值与该位置对应的第二注意力加权值相乘,确定该位置对应的该特征通道经过第二注意力加权后的图像特征的特征值。可选地,将进行第二注意力加权后的图像特征分布作为输入,具体包括:将该训练样本对应在各特征通道中的图像特征分布与进行第二注意力加权后的图像特征分布进行级联,确定级联后的图像特征分布作为输入。本说明书提供的一种视觉定位方法,包括:无人车采集当前周围环境的环境图像;将所述环境图像作为输入,输入视觉定位模型的特征提取分支网络,确定所述环境图像对应在各特征通道中的图像特征分布;针对每个特征通道,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,并根据该特征通道对应的第一注意力加权值,对该特征通道的各图像特征进行第一注意力加权,其中,该特征通道的图像特征的特征值越大,该特征通道对应的第一注意力加权值越大;针对图像特征分布中的每个位置,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,并根据该位置对应的第二注意力加权值,对该位置对应的各图像特征进行第二注意力加权,其中,该位置对应的各特征通道的图像特征的特征值越大,该位置对应的第二注意力加权值越大;将进行第二注意力加权后的图像特征分布作为输入,输入所述视觉定位模型的定位分支网络,确定所述无人车的当前位姿。本说明书提供一种模型训练装置,包括:获取模块,获取若干环境图像以及采集环境图像时采集设备的真实位姿;标注模块,针对每个环境图像,将该环境图像作为训练样本,将采集该环境图像时采本文档来自技高网
...

【技术保护点】
1.一种模型训练方法,其特征在于,包括:/n获取若干环境图像以及采集环境图像时采集设备的真实位姿;/n针对每个环境图像,将该环境图像作为训练样本,将采集该环境图像时采集设备的真实位姿作为所述训练样本的标注;/n针对每个训练样本,将该训练样本作为输入,输入待训练的视觉定位模型的特征提取分支网络,确定该训练样本对应在各特征通道中的图像特征分布;/n针对每个特征通道,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,并根据该特征通道对应的第一注意力加权值,对该特征通道的各图像特征进行第一注意力加权,其中,该特征通道的图像特征的特征值越大,该特征通道对应的第一注意力加权值越大;/n针对图像特征分布中的每个位置,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,并根据该位置对应的第二注意力加权值,对该位置对应的各图像特征进行第二注意力加权,其中,该位置对应的各特征通道的图像特征的特征值越大,该位置对应的第二注意力加权值越大;/n将进行第二注意力加权后的图像特征分布作为输入,输入所述待训练的视觉定位模型的定位分支网络,确定该训练样本的预测位姿;/n以最小化所述预测位姿与该训练样本标注的真实位姿之间的差异为优化目标,调整所述视觉定位模型中的模型参数,所述视觉定位模型用于进行视觉定位。/n...

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
获取若干环境图像以及采集环境图像时采集设备的真实位姿;
针对每个环境图像,将该环境图像作为训练样本,将采集该环境图像时采集设备的真实位姿作为所述训练样本的标注;
针对每个训练样本,将该训练样本作为输入,输入待训练的视觉定位模型的特征提取分支网络,确定该训练样本对应在各特征通道中的图像特征分布;
针对每个特征通道,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,并根据该特征通道对应的第一注意力加权值,对该特征通道的各图像特征进行第一注意力加权,其中,该特征通道的图像特征的特征值越大,该特征通道对应的第一注意力加权值越大;
针对图像特征分布中的每个位置,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,并根据该位置对应的第二注意力加权值,对该位置对应的各图像特征进行第二注意力加权,其中,该位置对应的各特征通道的图像特征的特征值越大,该位置对应的第二注意力加权值越大;
将进行第二注意力加权后的图像特征分布作为输入,输入所述待训练的视觉定位模型的定位分支网络,确定该训练样本的预测位姿;
以最小化所述预测位姿与该训练样本标注的真实位姿之间的差异为优化目标,调整所述视觉定位模型中的模型参数,所述视觉定位模型用于进行视觉定位。


2.如权利要求1所述的方法,其特征在于,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,具体包括:
根据该特征通道的图像特征分布,确定该特征通道中各图像特征的特征值;
从确定出的各特征值中,确定最大的特征值,作为该特征通道对应的第一注意力加权值。


3.如权利要求1所述的方法,其特征在于,根据该特征通道的图像特征分布,确定该特征通道对应的第一注意力加权值,具体包括:
根据该特征通道的图像特征分布,确定该特征通道中各图像特征的特征值;
将确定出的各特征值的平均值,作为该特征通道对应的第一注意力加权值。


4.如权利要求1所述的方法,其特征在于,根据该特征通道对应的第一注意力加权值,对该特征通道的各图像特征进行第一注意力加权,具体包括:
针对每个图像特征,将该图像特征的特征值与该特征通道对应的第一注意力加权值相乘,确定第一注意力加权后的该图像特征的特征值。


5.如权利要求1所述的方法,其特征在于,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,具体包括:
确定进行第一注意力加权后的各特征通道在该位置的图像特征的特征值;
将确定出的各特征值的平均值,作为该位置对应的第二注意力加权值。


6.如权利要求1所述的方法,其特征在于,根据各特征通道进行第一注意力加权的图像特征,确定该位置对应的第二注意力加权值,具体包括:
确定进行第一注意力加权后的各特征通道在该位置的图像特征的特征值;
从确定出的各特征值中,确定最大的特征值,作为该位置对应的第二注意力加权值。


7.如权利要求1所述的方法,其特征在于,根据该位置对应的第二注意力加权值,对该位置对应的各图像特征进行第二注意力加权,具体包括:
针对每个特征通道,将该位置对应该特征通道的图像特征的特征值与该位置对应的第二注意力加权值相乘,确定该位置对应的该特征通道经过第二注意力加权后的图像特征的特征值。


8.如权利要求1所述的方法,其特征在于,将进行第二注意力加权后的图像特征分布作为输入,具体包括:
将该训练样本对应在各特征通道中的图像特征分布与进行第二注意力加权后的图像特征分布进行级联,确定级联后的图像特征分布作为输入。


9.一种视觉定位方法,其特征在于,所述方法包括:
无人车采集当前周围环境的环境图像;
将所述环境图像作为输入,输入视觉定位模型的特征提取分支网络,确定所述环境图像对应在各特征通道中的图...

【专利技术属性】
技术研发人员:田咪聂琼申浩
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1