跨多种室内场景的视觉定位方法技术

技术编号:39405379 阅读:10 留言:0更新日期:2023-11-19 15:57
跨多种室内场景的视觉定位方法,解决了视觉定位场景坐标回归方法只能应用于特定场景的问题,属于视频图像拍摄视觉定位领域

【技术实现步骤摘要】
跨多种室内场景的视觉定位方法


[0001]本专利技术涉及一种跨多种室内场景的视觉定位方法,属于视频图像拍摄视觉定位领域


技术介绍

[0002]给定一幅
RGB
图像,视觉定位的目标是估计从相机坐标系估计到世界坐标系的6自由度相机位姿

这是机器人感知系统的关键步骤,如结构从运动
(SFM)
和同步定位和绘图
(SLAM)。
当前基于学习的视觉定位前沿方法可分为绝对位姿回归

相对位姿回归和场景坐标回归

其中,场景坐标回归方法使用训练好的卷积神经网络
(CNN)
直接预测场景坐标,并使用
PnP
算法计算摄像机姿态

[0003]作为一项开创性的工作,有学者利用回归森林预测三维坐标

后续的研究主要关注网络架构设计,以实现准确的视觉定位

例如,还有学者提出了一种分层结构,为每个像素附加离散的位置标签,以区分相似的像素,从而获得更高的精度

还有学者阐述了一种元素关注,有效融合多个特征,构建稀疏图神经网络,实现全面的场景解析

虽然这些方法带来了很好的结果,但它们也有一些缺陷

这些方法的场景坐标回归是特定于场景的,需要对新的场景进行重新训练,导致存储成本随着场景数量的增加呈线性增加,使得这些方法在资源有限的情况下难以持续


技术实现思路

[0004]针对视觉定位场景坐标回归方法只能应用于特定场景的问题,本专利技术提供一种跨多种室内场景的视觉定位方法

[0005]本专利技术的一种跨多种室内场景的视觉定位方法,包括
:
[0006]S1、

N
个不同的场景中,进行采集数据,数据包括
RGB
图像

深度图

采集相机的位姿;
[0007]S2、

S1
中采集的数据进行预处理;
[0008]S3、
将场景中的
RGB
图像和深度图作为输入,将深度图中每个像素点所对应的场景坐标作为输出,搭建跨场景视觉定位网络,利用预处理后
N
个场景的
RGB
图像分别输入到跨场景视觉定位网络中进行训练,得到训练好的
N
个场景的跨场景视觉定位网络;
[0009]对跨场景视觉定位网络进行训练时,卷积层权重确定时采用自适应参数共享策略:
[0010]在正向传递中,确定第
i
个卷积层各个通道的可学习得分个卷积层各个通道的可学习得分表示第
c
个通道的得分,
c

1,2



C
in

C
in
为输入的通道数,计算二值化后的得分参数
Θ
(s
i
)

[0011][0012]其中,
λ
表示设置的阈值;
[0013]若为0,则继续判定相应通道内各个卷积核的参数是否共享,若为1,则判定相应通道内各个卷积核的参数为任务特定权值
[0014]判定相应通道内各个卷积核的参数是否共享的方法:
[0015]确定算所述相应通道内各个卷积核的可学习得分
h
为卷积核的高,
l
为卷积核的宽,表示位置
(j,k)
的得分,
j

1,2,

,h

k

1,2,

,l
,计算卷积核二值化后的得分参数若为0,则通道内相应卷积核的参数为共享权值
w
i
,若为1,则通道内相应卷积核的参数为任务特定权值
[0016]将训练好的
N
个场景的跨场景视觉定位网络中的权值整合成一个跨场景视觉定位网络;
[0017]S4、
根据待测的
RGB
图像和对应深度图像选择相应跨场景视觉定位网络的权值,再利用跨场景视觉定位网络对待测
RGB
图像进行预测,得到每个像素点的场景坐标,根据得到的场景坐标及对应深度图像中的像素坐标,计算相机位姿

[0018]作为优选,跨场景视觉定位网络的输出还包括不确定度,
S4
中,跨场景视觉定位网络输出每个像素点的场景坐标和不确定度,根据不确定度剔除预测效果差的场景坐标,根据剩余的预测效果的场景坐标,及相应深度图像中的像素坐标,计算相机的位姿

[0019]作为优选,将训练好的
N
个场景的跨场景视觉定位网络中的权值整合成一个跨场景视觉定位网络:
[0020]第
n
个场景的任务特定权值的梯度为
:
[0021][0022]表示对求梯度操作,表示第
n
个任务的训练损失;
[0023]整合成一个跨场景视觉定位网络后的任务特定权值的梯度更新为:
[0024][0025]第
n
个场景的共享权值的梯度为
:
[0026][0027]表示对求梯度操作;
[0028]整合成一个跨场景视觉定位网络后的共享权值的梯度更新为:
[0029][0030]将第
n
个场景的共享权值和任务特定权值
[0031]作为优选,第
n
个任务的训练损失
:
[0032][0033]其中:
Q
为输入图像的像素数,
c
n,q
为第
q
个像素的预测场景坐标,为第
q
个像素的真实场景坐标,
u
n,q
为第
q
个像素的不确定度

[0034]作为优选,在反向传播过程中,第
n
个场景的可学习得分
s
n
的梯度为:
[0035][0036]其中,表示对的求梯度操作

[0037]作为优选,
S3
中,对跨场景视觉定位网络进行训练时,每结束一次
epoch
,使用当前跨场景视觉定位网络参数进行一次测试,若测试结果的误差和准确率均优于保存的最优网络,则将当前跨场景视觉定位网络参数保存为最优参数;当训练次数达到所设定的
epoch
值时,停止训练,得到训练好的跨场景视觉定位网络

[0038]作为优选,
S4
中,使用
RANSAC

PNP
算法选择
Q
组像素本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
跨多种室内场景的视觉定位方法,其特征在于,所述方法包括
:S1、

N
个不同的场景中,进行采集数据,数据包括
RGB
图像

深度图

采集相机的位姿;
S2、

S1
中采集的数据进行预处理;
S3、
将场景中的
RGB
图像和深度图作为输入,将深度图中每个像素点所对应的场景坐标作为输出,搭建跨场景视觉定位网络,利用预处理后
N
个场景的
RGB
图像分别输入到跨场景视觉定位网络中进行训练,得到训练好的
N
个场景的跨场景视觉定位网络;对跨场景视觉定位网络进行训练时,卷积层权重确定时采用自适应参数共享策略:在正向传递中,确定第
i
个卷积层各个通道的可学习得分个卷积层各个通道的可学习得分表示第
c
个通道的得分,
c

1,2



C
in

C
in
为输入的通道数,计算二值化后的得分参数
Θ
(s
i
)
:其中,
λ
表示设置的阈值;若为0,则继续判定相应通道内各个卷积核的参数是否共享,若为1,则判定相应通道内各个卷积核的参数为任务特定权值判定相应通道内各个卷积核的参数是否共享的方法:确定算所述相应通道内各个卷积核的可学习得分
h
为卷积核的高,
l
为卷积核的宽,表示位置
(j,k)
的得分,
j

1,2,

,h

k

1,2,

,l
,计算卷积核二值化后的得分参数若为0,则通道内相应卷积核的参数为共享权值
w
i
,若为1,则通道内相应卷积核的参数为任务特定权值将训练好的
N
个场景的跨场景视觉定位网络中的权值整合成一个跨场景视觉定位网络;
S4、
根据待测的
RGB
图像和对应深度图像选择相应跨场景视觉定位网络的权值,再利用跨场景视觉定位网络对待测
RGB
图像进行预测,得到每个像素点的场景坐标,根据得到的场景坐标及对应深度图像中的像素坐标,计算相机位姿
。2.
根据权利要求1所述的跨多种室内场景的视觉定位方法,其特征在于,跨场景视觉定位网络的输出还包括不确定度,
S4
中,跨场景视觉定位网络输出每个像素点的场景坐标和不确定度,根据不确定度剔除预测效果差的场景坐标,根据剩余的预测效果的场景坐标,及相应深度图像中的像素坐标,计算相机的位姿
。3.
根据权利要求1所述的跨多种室内场景的视觉定位方法,其特征在于,将训练好的
N
个场景的跨场景视觉定位网络中的权值整合成一个跨场景视觉定位网络:第
n
个场景的任务特定权值的梯度为
:
表示对求梯度操作,表示第
n
个任务的训练损失;整合成一个跨场景视觉定位网络后的任务特定权值的梯度更新为:第
n
个场景的共享权值的梯度为
::
表示对求梯度操作;整合成一个跨场景视觉定位网络后的共享权值的梯度更新为:将第
n
个场景的共享权值和任务特定权值
4.
根据权利要求3所述的跨多种室内场景的视觉定位方法,其特征在于,第
n
个任务的训练损失
:
其中:
Q
为输入图像的像素数,
...

【专利技术属性】
技术研发人员:王珂谢涛杨淋淇孙祺淏李瑞峰陶贤水赵立军
申请(专利权)人:芜湖哈特机器人产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1