一种基于单目深度估计和尺度恢复的目标定位方法技术

技术编号:38156927 阅读:24 留言:0更新日期:2023-07-13 09:26
本发明专利技术公开了一种基于单目深度估计和尺度恢复的目标定位方法,属于航空图像处理领域,具体为:以无人机实飞拍摄图像序列为基础,利用已有商业软件制作无人机视角下深度估计数据集;通过无监督单目深度估计网络得到场景的相对深度图;基于场景分割和两步地面点优化算法对相机高度进行估计,随后和先验真实相机高度做比得到场景的尺度因子;将尺度因子和相对深度相结合得到场景的绝对深度;通过目标检测算法对常见目标进行检测,最后使用小孔成像原理对目标进行定位。本发明专利技术将绝对深度估计方法和目标检测方法相结合,实现对低空无人机拍摄场景中常见目标进行定位,具有较高的准确性。性。性。

【技术实现步骤摘要】
一种基于单目深度估计和尺度恢复的目标定位方法


[0001]本专利技术属于航空图像处理领域,具体涉及一种基于单目深度估计和尺度恢复的目标定位方法。

技术介绍

[0002]随着无人机技术的快速发展,外加其所拍摄的图像具有视角大、细节丰富等优点,因此被广泛应用于灾害救援、目标监控、目标追踪和农业植保等领域,但是无人机图像关于目标定位和深度估计的相关研究较少。
[0003]目标定位指获得目标距无人机的真实距离,深度估计则指的是从单张或多张图像中恢复场景深度信息的过程,通过获得的深度信息能够帮助我们更好的感知周围环境。
[0004]深度估计技术已被广泛应用于自动驾驶、场景重建和机器人自主导航等领域,而在无人机领域,由于无人机视角下深度估计数据集的缺失,导致相关研究较少。通过基于深度估计方法对无人机图像进行目标定位,可以弥补现有无人机图像相关研究的空缺。无人机目标定位在自主降落以及军事追踪等领域有着较大的应用价值,因此通过基于深度估计方法进行无人机目标定位有着十分重要的研究意义。
[0005]由于无人机独特的拍摄视角,导致其拍摄的图像相较自动驾驶场景下具有视场角较广、深度变化范围较大、目标间遮挡严重等特点。随着深度学习的不断发展,现有的深度估计方法分为传统方法和基于深度学习的深度估计方法,按照训练方式的不同又可将深度学习方法分为有监督、无监督和半监督深度估计方法。
[0006]现有深度估计方法多集中于自动驾驶场景下,在无人机视角下进行深度估计进而实现目标定位仍面临如下问题:
[0007]1)由于无人机视角下拍摄图像纹理复杂、物体间相互遮挡严重;此外,低空飞行的无人机覆盖范围较大,导致场景深度变化更加剧烈。针对上述问题需要对现有单目深度估计网络进行改进,以适应多变的场景,得到精准的目标深度。针对现有无人机视角下深度标签数据较少的问题,应使用无监督深度估计方法,提高其深度估计的准确性。
[0008]2)使用无监督深度估计方法进行深度估计时,需要使用尺度恢复方法恢复场景的绝对深度,进而计算目标距无人机的距离,对目标进行定位。现有尺度恢复方法多采用地平面假设等强假设条件,由于无人机图像存在相机视角多变、场景中物体遮挡较为严重等问题,因此传统尺度恢复方法无法使用,应设计适用于无人机目标定位的尺度恢复方法。

技术实现思路

[0009]针对无人机图像中图像纹理复杂、相机视角变化较大、物体间遮挡严重等问题,本专利技术提出了一种基于单目深度估计和尺度恢复的目标定位方法;首先对无人机视角下的图像进行单目深度估计,得到场景的相对深度图;随后通过基于分割和两步地面点优化算法的尺度恢复算法,计算场景的尺度因子;通过将尺度因子和相对深度相乘,得到场景的绝对深度;使用目标检测算法结合场景的深度图对目标进行定位。
[0010]具体步骤如下:
[0011]步骤一、对某低空无人机在不同相机倾角下、不同飞行高度和不同拍摄距离对地面常见目标拍摄的图像序列,进行处理构建无人机深度估计数据集;
[0012]无人机相机倾角指无人机载荷的可见光相机和地平面所形成的夹角α,α∈[0
°
,90
°
];地面常见目标为:车辆、行人;每帧图像中的目标数量不固定;
[0013]具体处理过程为:
[0014]首先,选取某段时间的连续图像序列分别输入商业软件,通过建模生成三维点云,得到每张图像的深度标签;
[0015]然后,将图像序列和各自对应的深度标签结合,得到无人机深度估计数据集。
[0016]步骤二、利用深度估计数据集对MonoDepth2全卷积神经网络进行训练,作为单目无监督深度估计网络,用于对图像进行相对深度估计;
[0017]单目指单个镜头的相机所拍摄的图像数据;无监督指网络训练过程无需真值标签输入;
[0018]具体训练过程为:
[0019]首先,将连续图像序列输入MonoDepth2全卷积神经网络,通过估计前一帧和后一帧与当前帧间的相机位姿变化,将当前帧图像I
t'
反投影至相邻帧中,得到图像I
t'

t

[0020]计算公式为:I
t'

t
=I
t'
<proj(D
t
,T
t

t'
,K)>;
[0021]其中I
t'
为原始图像(前一帧或后一帧图像),I
t
为目标图像,K为相机内参矩阵;proj(D
t
,T
t

t'
,K)为图像投影变换公式;如下:
[0022]proj(D
t
,T
t

t'
,K)=φ(K[T
t

t'
,D
a
(p
a
)K
‑1(h(p
a
))])
[0023][0024]其中p
a
为像素在图像坐标系下的坐标,h(p
a
)为坐标p
a
的齐次坐标,D
a
(p
a
)为坐标p
a
处的深度,T
t

t'
为旋转矩阵,φ表示函数公式。
[0025]然后,使用最小化重投影损失函数计算目标图像I
t
和反投影图像I
t'

t
间的重投影误差,学习场景的相对深度;
[0026]损失函数如下:
[0027][0028][0029]其中α主要用于权重调整,I
a
和I
b
分别为两张图像,c1,c2为维持稳定的常数;表示图像I
a
的均值,表示图像I
b
的方差,表示图像I
a
和I
b
的协方差。
[0030]相对深度指仅能表示物体间相对远近的深度图,而绝对深度指场景中每个像素点所代表物体距相机的真实距离;相对深度和绝对深度间相差尺度因子;得到相对深度图后需要对其进行尺度恢复。
[0031]步骤三、针对新输入图像S,使用DeepLabV3+网络对图像S进行道路分割,得到对应的道路掩膜,同时使用训练好的单目无监督深度估计网络对图像S进行相对深度估计,得到相对深度图;
[0032]相对深度图指的是仅能表示物体间相对远近的图像,其每个像素点对应的深度值较小,无法通过其得到物体距相机的真实距离;
[0033]步骤四、通过对图像S的道路掩膜和相对深度图取交集获得粗略的地面点集,对该点集中每个像素点分别计算其法向量;
[0034]地面点通常指的是在相机坐标系下接近理想地面归一化法向量的点。
[0035]针对地面点集中像素点p...

【技术保护点】

【技术特征摘要】
1.一种基于单目深度估计和尺度恢复的目标定位方法,其特征在于,具体步骤如下:首先,利用某无人机在不同相机倾角下、不同飞行高度和不同拍摄距离对地面常见目标拍摄的图像序列,进行处理构建无人机深度估计数据集;利用深度估计数据集对MonoDepth2全卷积神经网络进行训练,作为单目无监督深度估计网络,用于对图像进行相对深度估计;然后,针对新输入图像S,使用DeepLabV3+网络对图像S进行道路分割,得到对应的道路掩膜,同时使用训练好的单目无监督深度估计网络对图像S进行相对深度估计,得到相对深度图;接着,通过对图像S的道路掩膜和相对深度图取交集获得粗略的地面点集,对该点集中每个像素点分别计算其法向量;并使用地面点优化算法结合像素点的法向量,将图像S对应的地面点进行优化;具体过程包括:1)通过道路掩膜和相对深度图,对地面点在几何层面上进行初步优化;得到单张图像中的地面点,2)使用滑动窗口方法构建一个帧缓冲区,将当前帧及其前两帧图像中的所有地面点映射到同一空间,构成一个地面点集,针对点集中的点通过求解最小二乘解进行共同优化;最后,通过两步优化后的地面点集估计相机高度,并计算尺度因子,结合图像S的相对深度,恢复该图像S的绝对深度;使用CenterNet网络对图像S进行目标检测,结合该图像S的绝对深度图,实现无人机视角下该图像中目标的定位。2.如权利要求1所述的一种基于单目深度估计和尺度恢复的目标定位方法,其特征在于,所述无人机相机倾角指无人机载荷的可见光相机和地平面所形成的夹角α,α∈[0
°
,90
°
];地面常见目标为:车辆、行人;每帧图像中的目标数量不固定;构建无人机深度估计数据集的具体处理过程为:首先,选取某段时间的连续图像序列分别输入商业软件,通过建模生成三维点云,得到每张图像的深度标签;然后,将图像序列和各自对应的深度标签结合,得到无人机深度估计数据集。3.如权利要求1所述的一种基于单目深度估计和尺度恢复的目标定位方法,其特征在于,所述单目无监督深度估计网络具体训练过程为:首先,将连续图像序列输入MonoDepth2全卷积神经网络,通过估计前一帧和后一帧与当前帧间的相机位姿变化,将当前帧图像I
t'
反投影至相邻帧中,得到图像I
t'

t
;计算公式为:I
t'

t
=I
t'
<proj(D
t
,T
t

t'
,K)>;其中I
t'
为前一帧或后一帧的原始图像,I
t
为目标图像,K为相机内参矩阵;proj(D
t
,T
t

t'
,K)为图像投影变换公式;如下:proj(D
t
,T
t

t'
,K)=φ(K[T
t

t'
,D
a
(p
a
)K
‑1(h(p
a
))])其中p
a
为像素在图像坐标系下的坐标,h(p
a
)为坐标p
a
的齐次坐标,D
a
(p
a
)为坐标p
a
处的深度,T
t

t'
为旋转矩阵,φ表示函数公式;然后,使用最小化重投影损失函数计算目标图像I
t
和反投影图像I
t'

t
间的重投影误差,学习场景的相对深度;损失函数如下:
其中α主要用于权重调整,I
a
和I
b
分别为两张图像,c1,c2为维持稳定的常数;表示图像I
a
的均值,表示图像I
b
的方差,表示图像I
a
和I
b
的协方差。4.如权利要求1所述的一种基于单目深度估计和尺度恢复的目标定位方法,其特征在于,所述对图像S的地面点集中每个像素点分别计算其法向量;具体过程为:针对地面点集中像素点p
i,j
的法向量,计算过程为:首先,将平面坐标系下的像素点p
i,j
投影到相机坐标系下:D
t
(p
i,j
)p
i,j
=KP
i,j
式中P
i,j...

【专利技术属性】
技术研发人员:李红光王洋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1