一种基于深度网络与运动信息的单目室内深度估计算法制造技术

技术编号:37712839 阅读:11 留言:0更新日期:2023-06-02 00:06
本发明专利技术公开了一种基于深度网络与运动信息的单目室内深度估计算法。首先,通过为较好的解决动态场景下特征提取不准确的问题,本发明专利技术通过设计编解码深度估计网络架构,根据前后帧的约束关系,提出了一种联合深度网络和运动信息的单目室内深度估计算法。其核心思想是利用帧间几何约束关系充分挖掘相邻帧间的上下文信息,并通过光流估计法跟踪相邻帧间的运动区域信息,利用运动矢量(Motion Vector,MV)推断深度信息,再结合分层特征提取网络,通过联合传统几何约束和深度神经网络的特征提取方法,最终实现室内静态、动态场景深度估计,进一步提升了单目室内深度估计算法的适应性和鲁棒性。棒性。棒性。

【技术实现步骤摘要】
一种基于深度网络与运动信息的单目室内深度估计算法


[0001]本专利技术涉及单目室内深度估计算法
,尤其涉及一种基于深度网络与运动信息的单目室内深度估计算法。

技术介绍

[0002]单目深度估计在目标识别、场景理解、导航定位等领域有重要的应用。传统的基于立体视觉的单目深度估计方法对场景具有一定的限制性。目前,用编解码网络的方法恢复图像的深度信息已经取得了广泛应用。但是,由于单目深度估计本身存在欠定性、真值数据存在低质性等问题,在实际应用场景中,还存在运动干扰等问题,物体运动带来的场景遮蔽、光学畸变、材质缺失区域对深度估计的精度存在很大影响,致使网络输出深度信息的纹理、边缘等细节信息存在丢失现象,大大降低了现有算法的鲁棒性。

技术实现思路

[0003]本专利技术目的就是为了弥补已有技术的缺陷,提供一种基于深度网络与运动信息的单目室内深度估计算法。
[0004]本专利技术是通过以下技术方案实现的:
[0005]一种基于深度网络与运动信息的单目室内深度估计算法,具体包括如下步骤:
[0006](2)对获取到的视频数据进行数据的预处理;
[0007](2)构建DenseNet选择特征提取器,在准确率上产生持续的改进;
[0008](3)设计分层压缩激励ASPP网络,使用具有不同采样步长的多个并行空洞卷积,对于不同采样步长下提取的特征在单独的分支中进一步处理,再融合各个空洞卷积形成多尺度特征。
[0009](4)对于动态场景中出现的移动物,结合双判别模式运动估计块计算出其MV信息利用掩膜机制屏蔽非运动部分,对运动部分进行高斯去噪,将运动点作为深度线索求解其深度,实现对动态区域的深度有效估计;
[0010](5)构建能量函数;
[0011](6)实现ASPP网络与双判别模式运动估计的深度信息融合,将静态、动态场景都考虑进去,有效地实现室内各种场景下的深度估计。
[0012]步骤(1)所述的对获取到的视频数据进行数据的预处理,具体如下:首先,对原始视频进行运动分析。利用成像设备采集到的视频,对视频进行逐帧分析,检测和识别不良的运动源。通过分析连续帧间的时空对应关系估计摄像机运动参数。其次,离群值删除。为了去除由相机抖动对计算过程造成的误差,第二步主要执行包括运动异常值检测与去除。大多数离群值检测器考虑两个相邻帧,并将所有不符合一般观测运动的位移标记为离群值,这可以通过计算估计的摄像机模型和视频中物体运动之间的拟合误差来实现。本专利技术在数据预处理阶段采用目前最常用的随机采样一致算法(Random Sample Consensus,RANSAC)算法进行离群值处理。
[0013]步骤(2)所述的构建选择特征提取器,具体如下:由于在场景分类、目标识别检测等经典计算机视觉任务中,DenseNet网络可扩展到数百层,参数量的增加没有使网络出现性能退化或者过拟合的迹象,而且在准确率上能产生持续性的改进,至少不会使准确率降低。因此择DenseNet

121这个折中网络作为网络架构编码端的特征提取器。
[0014]步骤(3)所述的设计分层压缩激励ASPP网络,具体如下:
[0015](a)感受野及膨胀卷积:对于每个输出像素来说,有一个大的感受野是至关重要的,这样在进行预测时就不会遗漏任何重要信息。ASPP通过多个并行结构的膨胀卷积产生了多尺度特征。对于一个输入的二维特征图像x而言,经过空洞卷积操作后,输出的任意一点i如(1)公式所示:
[0016][0017]其中,r表示空洞卷积的膨胀率,即采样步长;w表示卷积核;w(n)表示卷积核中有n个参数,N表示卷积核大小。
[0018]第l层感受野R的计算如(2)公式所示:
[0019][0020]其中,f
l
表示第l层的卷积核大小,表示从第1层到第l层卷积步长的累积。感受野的大小可以通过改变采样步长r作适当调整。当步长r的值恒为1时,公式(2)就成为计算标准卷积的感受野大小公式。
[0021](b)H

CE模块:本步骤采用全局平均池化技术,着眼于图像的整体,将特征图转换成1
×1×
C大小,让网络充分利用通道间的信息共享机制。全局平均池化技术计算方法如公式(3)所示:
[0022][0023]其中,f
k
表示卷积转换后在第k个卷积核的输出值。
[0024]其次对压缩操作后的输出图像进行激励操作,捕获通道间的依赖关系,达到对特征权重自动调整的目的。张量的扁平化处理使通道间的交互性增强,扁平化处理后的结果输入到激励操作的全连接层,将得到最后的特征向量。最后,将特征图F与激励向量E利用各通道间的特征进行加权融合,计算公式如(4)所示,最终得到H

CE模块的输出Y。
[0025][0026]其中,表示逐元素相乘运算,E
k
表示通过激励操作在第k个通道下得到的激励向量。
[0027](c)构建分层压缩激励ASPP结构块
[0028]构造了一个差值矩阵让网络获得全局最优解。具体步骤为:首先利用交叉对数似然比(Cross Likelihood Ratio,CLR)聚类算法对特征进行相似类的聚类。然后计算相邻两类间的权重系数w,根据聚类结果的类别对应关系,依次将权重系数w写入相关矩阵W中;再从图像的全局出发,计算图像当前所属类别与所有类之间的权重系数η,得到全局矩阵G
η
,如公式(5)所示。最后,将全局矩阵G
η
与相关矩阵W作差,构造出差值矩阵S,如公式(6)所示:
[0029][0030]S=G
η

W
ꢀꢀ
(6)
[0031]式中,diag(g)表示对角矩阵,η表示聚类后的类别数,m表示当前的类别序号(1,2,3,L,n)。
[0032]根据公式(6)的差值矩阵,计算其特征值以及特征值对应的特征向量,令最小的特征值为λ0,λ0对应的特征向量为S0。本专利技术根据感受野的大小设置阈值对网络进行分层,随着网络不断地被训练,网络的分层设计结构不断被优化。分层设计通过差值矩阵S的非零行的个数进行约束,同时学习相似矩阵和聚类问题。
[0033]在网络的低、中、高三个层次下,网络的层次优化问题可以转化为求解公式(7)的最小值:
[0034][0035]式中,F
T
表示经过网络训练出的相关矩阵。
[0036]在最小特征值λ0对应的特征向量S0约束下,对网络进行多次迭代训练后,F
T
不断进行循环更新,当求解的F
T
与相关矩阵W之间达到最小距离时,记录当下的相关矩阵F
T
。相关矩阵F
T
进入H

CE模块时,该模块可以自适应地、有目的地处理有用特征并抑制无用特征部分。
[0037](d)融合多尺度特征信息
[0038]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度网络与运动信息的单目室内深度估计算法,其特征在于:具体包括如下步骤:(1)获取室内环境的视频数据,对获取到的视频数据进行数据预处理;(2)构建选择特征提取器;(3)设计分层压缩激励ASPP网络,使用具有不同采样步长的多个并行空洞卷积,对于不同采样步长下提取的特征在单独的分支中进一步处理,再融合各个空洞卷积形成多尺度特征;(4)对于动态场景中出现的移动物,结合双判别模式运动估计块计算出其MV信息利用掩膜机制屏蔽非运动部分,对运动部分进行高斯去噪,将运动点作为深度线索求解其深度,实现对动态区域的深度有效估计;(5)构建能量函数;(6)实现ASPP网络与双判别模式运动估计的深度信息融合,实现室内各种场景下的深度估计。2.根据权利要求1所述的一种基于深度网络与运动信息的单目室内深度估计算法,其特征在于:步骤(1)所述的对获取到的视频数据进行数据预处理,具体如下:首先,对获取到的视频数据进行运动分析:利用成像设备采集到的视频数据,对视频数据进行逐帧分析,检测和识别不良的运动源,通过分析连续帧间的时空对应关系估计成像设备运动参数;其次,离群值删除:离群值检测器考虑两个相邻帧,并将所有不符合观测运动的位移标记为离群值,采用随机采样一致算法去除离群值。3.根据权利要求2所述的一种基于深度网络与运动信息的单目室内深度估计算法,其特征在于:步骤(2)所述的构建选择特征提取器,选择DenseNet

121网络作为网络架构编码端的特征提取器。4.根据权利要求3所述的一种基于深度网络与运动信息的单目室内深度估计算法,其特征在于:步骤(3)所述的设计分层压缩激励ASPP网络,使用具有不同采样步长的多个并行空洞卷积,对于不同采样步长下提取的特征在单独的分支中进一步处理,再融合各个空洞卷积形成多尺度特征,具体如下:(a)感受野及膨胀卷积:ASPP网络通过多个并行结构的膨胀卷积产生多尺度特征;对于一个输入的二维特征图像x而言,经过空洞卷积操作后,输出的任意一点i如式(1)所示:其中,r表示空洞卷积的膨胀率,即采样步长;w表示卷积核;w(n)表示卷积核中有n个参数,N表示卷积核大小;第l层感受野R的计算如式(2)所示:其中,f
l
表示第l层的卷积核大小,表示从第1层到第l层卷积步长的累积;(b)H

CE模块:采用全局平均池化技术,将特征图转换成1
×1×
C大小,让网络充分利用通道间的信息共享机制;全局平均池化技术计算方法如式(3)所示:
其中,f
k
表示卷积转换后在第k个卷积核的输出值;g
k
是全局池化之后的特征向量,W表示输入特征图的宽度,H表示输入特征图的高度,C表示输入特征图的通道数;对输出图像进行激励操作,捕获通道间的依赖关系,对特征权重自动调整;张量的扁平化处理使通道间的交互性增强,扁平化处理后的结果输入到激励操作的全连接层,将得到最后的特征向量;将特征图F与激励向量E利用各通道间的特征进行加权融合,计算公式如式(4)所示,最终得到H

CE模块的输出Y其中,表示逐元素相乘运算,E
k
表示通过激励操作在第k个通道下得到的激励向量;(c)构建分层压缩激励ASPP结构块构造一个差值矩阵让网络获得全局最优解:首...

【专利技术属性】
技术研发人员:金兢周永乐廖志伟赵玲娜
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1