一种基于三元网络的紧耦合弱监督学习的定位方法及系统技术方案

技术编号:31755679 阅读:17 留言:0更新日期:2022-01-05 16:38
本发明专利技术公开了一种基于三元网络的紧耦合弱监督学习的定位方法及系统,基于全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述正样本和负样本作为三元组网络的训练集;在学习策略中从选择训练样本元组和损失函数定义两个方面将全局特征和局部特征更好的耦合,实现全局特征和局部特征的互相促进,可以从训练集中学习到更加有效的信息表征方式和更丰富的特征细节;在训练过程中提高两者的一致性,解决了视觉位置识别任务中两者在结果上的冲突混淆问题,从而在检索框架中更好发挥各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外,学习策略还提升了模型的学习效率,大幅度地降低了模型训练时间。低了模型训练时间。

【技术实现步骤摘要】
一种基于三元网络的紧耦合弱监督学习的定位方法及系统


[0001]本专利技术属于计算机视觉和机器人领域,具体涉及一种基于三元网络的紧耦合弱监督学习的定位方法及系统。

技术介绍

[0002]随着计算机视觉的蓬勃发展,基于深度学习的检索定位在机器人领域中展现了巨大的发展潜力。算法主要分为两类,基于全局特征的算法和基于局部特征的算法。全局特征的算法计算耗时短、对环境变化具有不变性,但对视角变化不具有不变性;相反,局部特征的算法耗时长、对视角变化具有不变性、精度相对更高。
[0003]因此为了得到在机器人上可实时处理的高精度检索定位方案,目前常用的检索结构是双阶段检索:首先基于全局特征进行数据库的检索排名,之后在选出的top

M中进行基于局部特征的重排名,从而得到最终的定位结果。
[0004]由于在这种结构中,全局特征和局部特征的处理是独立的,经过重排名后的定位精度的提升有限。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种基于三元网络的紧耦合弱监督学习的定位方法及系统,解决目前视觉位置识别任务的双阶段检索结构中全局特征和局部特征被割裂处理的问题,从而提升检索定位的精度。
[0006]为了实现上述目的,本专利技术采用的技术方案是:一种基于三元网络的紧耦合弱监督学习的定位方法,包括以下步骤:
[0007]获取图像I的全局特征和长度为N的局部特征序列;
[0008]基于所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q的负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;
[0009]将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;
[0010]基于所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top

M,在所述top

M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
[0011]采用预训练的DeiT作为待学习的深度骨干网络,沿用自然语言处理中transformer的class token<CLS>对应的处理结果作为图像的全局特征;将图像I的全局特征记作G(I);
[0012]采用预训练的DeiT作为待学习的深度网络,局部特征采用GeM池化层,得到长度为N的特征序列,将图像I的局部特征记作{L1(I),

,L
k
(I),

,L
N
(I)}。
[0013]采用欧氏距离计算全局特征之间的距离,图像Q和图像R之间的全局距离为
[0014]d
G
(Q,R)=‖G(Q)

G(R)‖.(1)
[0015]局部距离度量的算法使用DTW算法,将图像Q和图像R之间的局部距离记作d
L
(Q,R)。
[0016]正样本挖掘分为两个阶段:首先根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中,选择全局特征距离q最近的M个样本P
M
,之后基于局部特征的重排序算法搜索P
M
中距离图像q最近的一个样本p
*
,所述p
*
作为训练元组中的正样本p。
[0017]训练三元组中负样本n
j
,基于全局匹配器选择,根据当前训练阶段的模型计算图像库的全局特征和全局距离,在图像q的确切负样本集合N中从小到大的顺序选择J个负样本n
j
,其中负样本n
j
满足
[0018]d
G
(q,p
*
)+m>d
G
(q,n
j
),(2)其中m是距离阈值,m=0.1。
[0019]6.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,弱监督排序损失函数为:
[0020]L
g
=∑max(0,d
G
(q,p
*
)+m

d
G
(q,n
j
)),(3)
[0021]其中n
j
是J个负样本;
[0022]重排序阶段损失函数为:
[0023]L
l
=∑max(0,d
L
(q,p
*
)

d
L
(q,n
j
)),(4)
[0024]其中n
j
是J个负样本。
[0025]最终的损失函数L:
[0026]L=w
g
*L
g
+w
l
*L
l
,(5)
[0027]其中w
g
和w
l
是两个损失函数的权重,L
g
为弱监督排序损失函数,L
l
为重排序阶段损失函数,w
l
=w
g
=0.5。
[0028]还提供一种基于三元网络的紧耦合弱监督学习的定位系统,包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块;其中,
[0029]特征获取模块用于获取图像I的全局特征和长度为N的局部特征序列;
[0030]训练集获取模块用于根据所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;
[0031]三元网络训练模块用于将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;
[0032]定位模块用于根据所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top

M,在所述top

M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
[0033]一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现
本专利技术所述基于三元网络的紧耦合弱监督学习的定位方法。
[0034]一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,包括以下步骤:获取图像I的全局特征和长度为N的局部特征序列;基于所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q的负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;基于所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top

M,在所述top

M中进行基于局部特征距离的重排名,从而得到最终的定位结果。2.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,采用预训练的DeiT作为待学习的深度骨干网络,沿用自然语言处理中transformer的classtoken<CLS>对应的处理结果作为图像的全局特征;将图像I的全局特征记作G(I);采用预训练的DeiT作为待学习的深度网络,局部特征采用GeM池化层,得到长度为N的特征序列,将图像I的局部特征记作{L1(I),...,L
k
(I),...,L
N
(I)}。3.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,采用欧氏距离计算全局特征之间的距离,图像Q和图像R之间的全局距离为d
G
(Q,R)=||G(Q)

G(R)||.(1)局部距离度量的算法使用DTW算法,将图像Q和图像R之间的局部距离记作d
L
(Q,R)。4.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,正样本挖掘分为两个阶段:首先根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中,选择全局特征距离q最近的M个样本P
M
,之后基于局部特征的重排序算法搜索P
M
中距离图像q最近的一个样本p
*
,所述p
*
作为训练元组中的正样本p。5.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,训练三元组中负样本n
j
,基于全局匹配器选择,根据当前训练阶段的模型计算图像库的全局特征和全局距离,在图像q的确切负样本集合N中从小到大的顺序选择J个负样本n
j
,其中负样本n
j
满足d
G
(q,p
*
)+m>d
G
(q,n
j
),...

【专利技术属性】
技术研发人员:郑南宁沈艳晴王若彤夏超陈仕韬
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1