【技术实现步骤摘要】
基于通道自注意力机制的自监督图像深度估计方法
[0001]本专利技术涉及计算机视觉
,尤其是涉及一种利用基于通道自注意力机制的自监督深度估计网络进行深度估计的方法,进而构建稠密地图
。
技术介绍
[0002]同时定位与建图
(simultaneous localization and mapping
,
SLAM)
利用传感器输入的数据,实时计算机器人的相对位姿
(
位置和姿态
)
变换实现机器人的定位,并同时在机器人移动过程中增量式的构建所见场景的地图
。
根据所用的传感器不同可以分为视觉
SLAM
和激光
SLAM。
视觉
SLAM
,相机具有成本低
、
图像信息丰富等优点,因此在几何机构相似的环境
、
处理回环检测等问题上表现良好
。
但是,搭载视觉传感器的机器人在未知环境中运行
SLAM
时,系统基本是被动地接收机器人运动过程中视觉传感器采集的图像数据,根据这些数据对机器人的位姿以及周围环境进行感知
。
当任务中视觉传感器采集的图像中出现纹理稀少
、
动态物体较多等情况时,
SLAM
系统会面临跟踪失败的问题
。
因此,基于人眼周边视觉和中心视觉感知机制的启发,可以构建一个具有周边视觉和中心视觉的仿生眼系统,使该系统拥有主动视觉能力
。 ...
【技术保护点】
【技术特征摘要】
1.
基于通道自注意力机制的自监督图像深度估计方法
,
步骤包括:利用双目仿生眼相机采集图像;将其中一个仿生眼相机定义为主相机,定义目标图像为主相机图像,定义源图像为与目标图像前后相邻的两帧主相机图像和另一个仿生眼相机图像;将左右仿生眼相机采集到的图像输入到
SLAM
系统中,利用
SLAM
系统预测相机位姿和目标图像的稀疏深度图;将目标图像和
SLAM
线程获得的稀疏深度图输入到基于通道自注意力机制架构的深度估计网络中,得到所述目标图像的场景深度图,其中,所述基于通道自注意力机制架构的深度估计网络包括编码器
、
结构感知模块和解码器,所述基于通道自注意力机制架构的深度估计网络的参数通过下述方式进行更新:将目标图像输入所述编码器,编码器采用
ResNet
‑
18
网络作为主干来提取语义特征,接着将所述语义特征输入结构感知模块,生成新的特征;将结构感知模块生成的新特征图输入解码器中,所述解码器首先对结构感知模块生成的新特征图进行3×3卷积和上采样,然后进入细节感知模块,经细节感知模块获得的特征图再进行2次1×1卷积以及
sigmoid
函数进行计算;解码后获得原始分辨率的稠密深度图;将
SLAM
系统得到的稀疏深度图输入到所述解码器的最后一层网络结构中,参与所述深度估计网络的预训练;基于目标图像帧与相邻帧或者双目相机中另一个相机之间的相对位姿,利用基于通道自注意力机制的深度估计网络预测出的目标图像稠密深度图与帧间的相对位姿对目标图像进行投影重建,然后在目标图像和重建的目标图像之间构建重投影误差,训练时最小化该重投影误差
。2.
如权利要求1所述的图像深度估计方法,其特征在于,所述结构感知模块的运算过程包括:
S101
,给定由
ResNet
‑
18
编码器生成的特征图首先将
F
重塑为其中
N
=
H
×
W
是像素数,然后将
F
与
F
的转置矩阵相乘,计算特征相似度的转置矩阵相乘,计算特征相似度其中,
i
,
j
表示任意两个通道,
S
ij
表示两个通道的特征相似度;
S102
,通过逐元素减法将相似度
S
转换为区分度
D
ij
=
max
i
(S)
‑
S
i,j
,
D
ij
表示第
j
通道对第
i
通道的影响;
S103
,应用
softmax
层来获得注意力映射层来获得注意力映射
A
ij
表示将注意力集中在两个通道中特定的部分,提取通道中的关键信息同时忽略无关信息;
S104
,注意力映射
A
和
F
的转置矩阵相乘,并将结果重塑为再令
F
和结果之间进行逐元素求和运算,以获得最终输出间进行逐元素求和运算,以获得最终输出
3.
如权利要求1所述的图像深度估计方法,其特征在于,所述细节感知模块通过融合高
层特征
H
和跳过连接的低层特征
L
来恢复分辨率,具体运算过程包括:
S201
,首先将低层特征
L
和高层特征
H
连接起来,然后利用卷积层并进行批量归一化处理获得
U
,以平衡特征的尺度:其中,
f()
表示连接,表示3×3或1×1的卷积,
BN
表示批量归一化处理,使用
ReLU
作为激活函数
σ
()
;
S202
,通过全局平均池化将
U
压缩为向量以获得全局上下文,并使用2个1×1卷积层以及
sigmoid
函数来计算权重向量以重新校准通道特征同时测量它们的重要性:其中,
H、W
为
U
的高度和宽度,
δ
()
表示
sigmoid
函数;
S203
,在
V
和
U
之间进行逐元素乘法以生成重新加权特征,重新加权特征与
U
之间进行求和运算,获得最终输出
O
:
O
=
V
⊙
U+U
,其中
⊙
为逐元素点积
。4.
如权利要求1所述的图像深度估计方法,其特征在于,将双目仿生眼相机中的左相机定义为主相机,目标图像
I
t
为左仿生眼相机图像,源图像为与目标图像前后相邻的两帧左仿生眼相机图像
I
s
∈{I
t
‑1,I
t+1
}
和右仿生眼相机图像
I
s
=
I
tr
,目标图像相对于源图像的位姿为
T...
【专利技术属性】
技术研发人员:李恒宇,万磊,刘靖逸,刘军,王曰英,谢少荣,罗均,
申请(专利权)人:济宁学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。