当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于无监督学习的鱼眼相机场景深度估计方法技术

技术编号:34954189 阅读:41 留言:0更新日期:2022-09-17 12:32
本发明专利技术公开了一种基于无监督学习的鱼眼相机场景深度估计方法,该方法首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图。该方法使用鱼眼相机,具有观测范围广的特点;所采用的无监督学习方法,具有训练方便、感知结果准确的特点,能够满足场景深度估计的需求。能够满足场景深度估计的需求。能够满足场景深度估计的需求。

【技术实现步骤摘要】
一种基于无监督学习的鱼眼相机场景深度估计方法


[0001]本专利技术涉及一种用于鱼眼相机的场景深度估计方法,尤其涉及一种基于无监督学习的鱼眼相机场景深度估计方法,属于场景感知领域。

技术介绍

[0002]交通是我国国民经济的基础和命脉,交通发展的水平是一个国家整体实力和科技水平的重要标志。随着新一轮科技革命的到来,智能交通的发展已经成为交通发展的必然趋势。这对智能汽车的感知提出了新的需求。
[0003]目前,车辆的视觉感知主要还是依赖车载高清摄像机,车载摄像机观察范围小,且存在一定的盲区,所获得的路况内容少。而带有鱼眼镜头的鱼眼相机观察范围大,鱼眼镜头的视角等于或大于180度,所获得的景深范围远。但是焦距越短,视角越大,因光学原理产生的变形也就越强烈。因此鱼眼相机存在图像畸变的问题,若将鱼眼图像直接运用于车辆的视觉感知领域,会导致感知结果存在一定的误差。
[0004]此外,场景的深度估计是车辆的视觉感知领域中的一项重要任务,通过估计图像中每个像素到摄像机的距离,为场景的三维重建和距离感知等方面提供了深度信息。随着人工智能技术的快速发展,由于深度学习具有强大的自学习能力,为车辆的场景深度估计提供了新的思路。目前的深度学习方法多集中于基于传统摄像机的图像,使用标注好的场景深度图样本,完成深度估计的任务。针对上述鱼眼图像畸变的现象,以及目前鱼眼图像数据集含有的深度样本信息较少的问题,本专利技术公开了一种面向鱼眼图像的无监督场景深度估计方法。本专利技术公开的方法采用了端到端的神经网络结构,直接从由鱼眼相机获取的原始鱼眼图像中感知深度信息,即输入原始图像,最后输出场景深度图。该方法使用鱼眼相机,具有观测范围广的特点;所采用的无监督学习方法,具有易实现、成本低的特点,方便快捷的满足了对场景的深度估计需求。

技术实现思路

[0005]本专利技术提出一种基于无监督学习的鱼眼相机场景深度估计方法,该方法使用鱼眼相机,设计考虑图像畸变的网络架构,结合对图像的相机位姿估计信息,感知出场景深度图,具有成本低、感知范围广、感知结果准确的特点。
[0006]本专利技术采用的技术方案如下:一种基于无监督学习的鱼眼相机场景深度估计方法,其特征在于:首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图,具体包括以下步骤:
[0007]步骤一:设计生成对抗网络
[0008]设计生成对抗网络对鱼眼图像进行畸变校正。生成对抗网络由两个生成器和两个判别器组成。首先,构建原始鱼眼图像X和无失真的图像数据集Y作为训练集。先将X通过生
成器G转换为Y域的无失真图像,再通过生成器F重构回X域输入的原畸变图像。Y 域的图像先通过生成器F转换为X域的畸变鱼眼图像,再通过生成器G重构回Y域输入的原图像。生成器G和判别器D
Y
相关联,D
Y
将Y和生成数据G(X)区分,生成器F和判别器D
X
相关联,D
X
将X和生成数据F(Y)区分。生成器G和生成器F采用以下所述的生成网络结构,判别器D
X
和判别器D
Y
采用以下所述的判别网络结构。具体包括以下子步骤:
[0009]子步骤1.1:设计生成网络架构
[0010]生成网络由编码结构和解码结构组成,编码器采用下采样的方式对图像进行特征提取,解码器采用上采样方式重建图像。编码器网络由输入层、三个卷积层和一个全连接层组成,输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3,步长分别为2、2、4,特征映射图数目为64、128、256,全连接层的节点为256,输出一个标量;解码器网络由依次相连接的三个反卷积层和输出层组成,第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3,步长分别为4、2、2,特征映射图数目分别为128,64,3。先将一张256
ꢀ×
256
×
3鱼眼图像作为输入张量,编码器对图像进行下采样,由卷积层对输入进行特征提取,激活函数使用Relu。解码器使用上采样的方法把特征映射为图像,使用激活函数 Leaky Relu对该上采样层进行激活输出,最后输出256
×
256
×
3的图像。生成网络中特别使用了实例标准化层,在加速模型收敛的同时,也保持每个图像实例间的独立性。
[0011]子步骤1.2:设计对抗网络架构
[0012]判别网络采用PatchGANs结构的思想,由四个卷积层组成,第一层和最后一层中不使用实例标准化层,其余层都使用。激活函数使用Leaky Relu,输出为30
×
30的矩阵,用矩阵的均值作为真假判断输出。
[0013]子步骤1.3:设计生成对抗网络的损失函数
[0014]该生成对抗网络的损失函数由三部分组成,分别是两个生成器

判别器对的损失,如式(1)和式(2)所示。以及周期循环一致损失,如式(3)所示。
[0015]L
GAN
(G,D
Y
)=E
Y~data(Y)
[log(D
Y
(Y))]+E
X~data(X)
[log(1

D
Y
(G(X)))]ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0016]L
GAN
(F,D
X
)=E
X~data(X)
[log(D
X
(X))]+E
Y~data(Y)
[log(1

D
X
(F(Y)))]ꢀꢀꢀ
(2)
[0017]L
cyc
l
e
(G,F)=E
X~data(X)
|F(G(X))

X|+E
Y~data(Y)
|G(F(Y))

Y|
ꢀꢀꢀꢀ
(3)
[0018]其中,E
X~data(X)
,E
Y~data(Y)
均表示数学期望。
[0019]综上所述,所设计的生成对抗神经网络的完整损失如式(4)所示,其中λ
c
为加权因子,控制循环一致损失的权重,λ
c
设为10。
[0020]L
GAN
(G,F,D
X
,D
Y
)=L
GAN
(G,D
Y
)+L
GAN
(F,D
X
)+λ
c
L
cycle
(G,F)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习的鱼眼相机场景深度估计方法,其特征在于:首先建立生成对抗网络架构,对输入的鱼眼图像进行畸变校正处理;然后建立场景深度估计网络架构,对图像进行深度特征和位姿特征的提取;接着使用场景深度图信息和相机位姿信息重构图像,设计损失函数训练模型,优化网络参数;最终使用训练好的网络进行深度估计,得到图像的场景深度图,具体包括以下步骤:步骤一:设计生成对抗网络设计生成对抗网络对鱼眼图像进行畸变校正;生成对抗网络由两个生成器和两个判别器组成;首先,构建原始鱼眼图像X和无失真的图像数据集Y作为训练集;先将X通过生成器G转换为Y域的无失真图像,再通过生成器F重构回X域输入的原畸变图像;Y域的图像先通过生成器F转换为X域的畸变鱼眼图像,再通过生成器G重构回Y域输入的原图像;生成器G和判别器D
Y
相关联,D
Y
将Y和生成数据G(X)区分,生成器F和判别器D
X
相关联,D
X
将X和生成数据F(Y)区分;生成器G和生成器F采用以下所述的生成网络结构,判别器D
X
和判别器D
Y
采用以下所述的判别网络结构;具体包括以下子步骤:子步骤1.1:设计生成网络架构生成网络由编码器网络和解码器网络组成,编码器网络中的编码器采用下采样的方式对图像进行特征提取,解码器网络中的解码器采用上采样方式重建图像;编码器网络由输入层、三个卷积层和一个全连接层组成,输入层和全连接层之间的三层滤波器的尺寸分别为7、5、3,步长分别为2、2、4,特征映射图数目为64、128、256,全连接层的节点为256,输出一个标量;解码器网络由依次相连接的三个反卷积层和输出层组成,第一个反卷积层和输出层之间的三层滤波器尺寸分别为5、3、3,步长分别为4、2、2,特征映射图数目分别为128,64,3;先将一张256
×
256
×
3鱼眼图像作为输入张量,编码器对图像进行下采样,由卷积层对输入进行特征提取,激活函数使用Relu;解码器使用上采样的方法把特征映射为图像,使用激活函数Leaky Relu对该上采样层进行激活输出,最后输出256
×
256
×
3的图像;生成网络中特别使用了实例标准化层,在加速模型收敛的同时,也保持每个图像实例间的独立性;子步骤1.2:设计对抗网络架构判别网络采用PatchGANs结构的思想,由四个卷积层组成,第一层和最后一层中不使用实例标准化层,其余层都使用;激活函数使用Leaky Relu,输出为30
×
30的矩阵,用矩阵的均值作为真假判断输出;子步骤1.3:设计生成对抗网络的损失函数生成对抗网络的损失函数由三部分组成,分别是两个生成器

判别器对的损失,如式(1)和式(2)所示;以及周期循环一致损失,如式(3)所示;L
GAN
(G,D
Y
)=E
Y~data(Y)
[log(D
Y
(Y))]+E
X~data(X)
[log(1

D
Y
(G(X)))]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)L
GAN
(F,D
X
)=E
X~data(X)
[log(D
X
(X))]+E
Y~data(Y)
[log(1

D
X
(F(Y)))]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)L
cycle
(G,F)=E
X~data(X)
|F(G(X))

X|+E
Y~data(Y)
|G(F(Y))

Y|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,E
X~data(X)
,E
Y~data(Y)
均表示数学期望;综上所述,所设计的生成对抗神经网络的完整损失如式(4)所示,其中λ
c
为加权因子,控制循环一致损失的权重,λ
c
设为10;L
GAN
(G,F,D
X
,D
Y
)=L
GAN
(G,D
Y
)+L
GAN
(F,D
X
)+λ
c
L
cycle
(G,F)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)步骤二:设计场景深度估计网络
场景深度估计网络由深度感知模块和位姿感知模块组成;对经过畸变校正后的图像进行深度估计;具体包括以下子步骤:子步骤2.1:设计深度感知模块深度感知模块输入经过畸变校正后的目标图像I
t
,输出该图像的场景深度图D
t
,其结构由编码器和解码器组成;(1)编码器结构如下:卷积层1_1:使用7
×
7的感受野与256
×
256
×
3的输入张量做卷积,步长为2,得到维度为128
×
128
×
64的特征图F1;卷积层1_2:使用5
×
5的感受野与卷积层1_1输出的特征图做卷积,步长为2,得到维度为64
×
64

【专利技术属性】
技术研发人员:徐启敏张鸷李旭
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1