当前位置: 首页 > 专利查询>大连大学专利>正文

一种融合深度学习特征光流与双目视觉的运动估计方法技术

技术编号:35993224 阅读:56 留言:0更新日期:2022-12-17 23:09
本发明专利技术公开了一种融合深度学习特征光流与双目视觉的运动估计方法,包括:对行车图像数据集进行基于可控自适应直方图均衡预处理;构建基于深度学习的光流特征提取模型,对运动目标物进行识别训练;通过双目相机进行测距,得到目标物位置;获取车体运动速度。相比传统光流测速,该方法基于深度学习光流以及双目成像原理,会根据视频数据实现对载体位移与速度的运动参数估计,解决了在夜间即弱光环境下行驶时传统光流估计方法过于敏感、无法稳定估算的问题,进一步提高了可靠性。同时该方法避免了传统依靠惯性传感器所具有的累积误差;以及依靠GPS定位测速遇到的抗干扰能力差、更新频率低的缺点。率低的缺点。

【技术实现步骤摘要】
一种融合深度学习特征光流与双目视觉的运动估计方法


[0001]本专利技术涉及无人驾驶
,具体涉及一种融合深度学习特征光流与双目视觉的运动估计方法。

技术介绍

[0002]光流是观察者与观察场景之间视觉上的相对运动,包含了视觉场景中物体表面和边缘等运动信息。光流可以看作是三维运动在二维平面上的投影,由于包含物体丰富的运动和三维结构信息,且因其具有鲁棒性高、实时性高、成本低且无误差累积的特点,故可以将光流应用于无人驾驶等领域。
[0003]现有主流测速方式主要依靠搭载的惯性传感器、GPS定位测速或者混合测速等。惯性传感器实时性高,但会随着时间的增加而累积误差;GPS定位测速精度高但是更新频率低、实时性差,且易收到信号干扰。当需要在无信号、长时间驾驶情况下,借助身边无处不在的光流信息进行测速不失为一种方式。
[0004]随着计算机技术的不断发展,通过人工神经网络(深度学习)进行生产学习能够进一步的提高处理精度与速度,且可以提取丰富的数据信息内涵,现有深度学习光流算法主要分为有监督学习和无监督/半监督学习算法,有监督光流模型通常通过改进梯度下降方式实现端对端的训练;而无监督算法由于无需真实光流图像作为训练样本,直接利用真实场景进行网络训练,除此之外通常使用亮度守恒函数、平滑变化函数等代替有监督学习模型中端对端的误差损失函数。现阶段通过人工神经网络,可以实现快速、准确的对运动物体进行光流估计,但是在弱光环境下的光流实现仍不稳定。现有的视觉里程计多为单目视觉里程计、视觉惯导里程计等,但是均存在估算精度较低,对环境光照强度要求高,稳定性差等缺陷。

技术实现思路

[0005]本专利技术的目的在于,提供一种融合深度学习特征光流与双目视觉的运动估计方法,其改善了传统算法在弱光环境下光流估计能力弱、精度低的问题;并且避免了传统运动估计方法下有累积误差、实时性差的缺陷,为无人驾驶技术提供新的估计方法。
[0006]为实现上述目的,本申请提出一种融合深度学习特征光流与双目视觉的运动估计方法,包括:
[0007]对行车图像数据集进行基于可控自适应直方图均衡预处理;
[0008]构建基于深度学习的光流特征提取模型,对运动目标物进行识别训练;
[0009]通过双目相机进行测距,得到目标物位置;
[0010]获取车体运动速度。
[0011]进一步的,对行车图像数据集进行基于可控自适应直方图均衡预处理,具体为:将原始行车图像缩放为设定分辨率并进行可控自适应直方图均衡处理,然后将行车图像裁剪为预定值来限制放大强度,得到邻域累积分布函数:
[0012][0013]其中,cdf
min
为像素值的累积分布函数最小值、M
×
N为行车图像像素数、G
i
为灰度级数。
[0014]进一步的,构建基于深度学习的光流特征提取模型,对运动目标物进行识别训练,具体为:
[0015]根据光流特性设计局部平滑假设,得到光流方程:
[0016][0017]其中,x为像素横坐标,y为像素纵坐标,t为时间;dx、dy、dt为x、y、t的微分,/为光流图像信息;α为微分运算符号,Δx、Δy、Δt为x、y、t的变化值;
[0018]构建两个共享权重的CNN层对行车图像特征进行提取;
[0019]将两张行车图像的特征对进行内积计算:特征f1∈R
H
×
W
×
D
和特征f2∈R
H
×
W
×
D
分别表示行车图像I1和I2的特征,将特征向量两两内积则得到视觉相似度,表示为:
[0020][0021]其中C(f1,f2)∈R
H
×
W
×
H
×
W
,ij、kl分别为第一帧与第二帧图像光流点所在的位置信息,d为所取图像具体通道,取值范围为[0,D

1],C为四维向量特征;其中H、W为图像分辨率,D为通道数量;
[0022]构建金字塔对所述四维向量特征进行池化操作;
[0023]获取高分辨率行车图像的四维向量特征:由于金字塔层级之间存在数据代价,记两帧之间光流对应点x

=(u+f1(u),v+f2(v)),u为像素横坐标,v为像素纵坐标,f1为第一帧图像光流特征,f2为第二帧图像光流特征,邻域网格为m为层数,则通过查找光流在每层上所对应的任意位置,其中k为任意实数;根据该对应关系,高分辨率行车图像的四维向量特征表示为:
[0024][0025]其中m为金字塔第m层,p、q分别为光流点在第m层上像素矩阵中的第p行第q列信息;
[0026]所述CNN层对行车图像数据进行迭代更新:给定当前光流状态为f
k
,每次迭代生成一个相对于上次迭代输出的残差光流即更新值f1Δf,则下一步光流预测值为Δf+f
k
=f
k+1
;更新方式为:
[0027][0028]其中,R
t
为重置门,Z
t
为更新门,σ为函数运算,H
t
为保留的上一阶段隐藏状态的信
息量,H
t
‑1为隐藏层,X
t
为光流输入值W
r
、W
z
为权重信息矩阵。
[0029]得到高分辨率行车图像(运动强化后的运动物体图像)的四维向量特征后,在金字塔的原分辨率追踪下获取光流的像素信息,即得到运动目标活动区域,该区域的图像最小化位移量为v=[v
x
,v
y
]T
,每个点邻域范围内的匹配误差和最小值ε(v)为:
[0030][0031]其中,v
x
,v
y
分别为金字塔顶层横纵位移量,p
x
为光流点横坐标,w
x
为横坐标邻域范围,p
y
为光流点横坐标,w
y
为纵坐标邻域范围,A(x,y)为第一帧光流特征,B(x,y)为第二帧光流特征;
[0032]在活动区域对运动目标物进行识别训练;
[0033]为模型选用监督算法,其损失函数设置为:
[0034][0035]即迭代结果与真实值的L1范数,其中N为迭代次数,γ=0.8;f
gt
为估计光流特征、f
i
为实际光流特征、Δx
gt
、Δy
rt
为估计光流横、纵向位移量,Δx
i
、Δy
i
为实际光流横、纵向位移坐标。
[0036]进一步的,所述CNN层包括两个1/2分辨率、两个1/4分辨率、两个1/8分辨率的残差层,所述残差层之间分辨率每降低一半,通道数进行增加;特征提取时输入两个连续帧,则有R
H
×
W
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合深度学习特征光流与双目视觉的运动估计方法,其特征在于,包括:对行车图像数据集进行基于可控自适应直方图均衡预处理;构建基于深度学习的光流特征提取模型,对运动目标物进行识别训练;通过双目相机进行测距,得到目标物位置;获取车体运动速度。2.根据权利要求1所述一种融合深度学习特征光流与双目视觉的运动估计方法,其特征在于,对行车图像数据集进行基于可控自适应直方图均衡预处理,具体为:将原始行车图像缩放为设定分辨率并进行可控自适应直方图均衡处理,然后将行车图像裁剪为预定值来限制放大强度,得到邻域累积分布函数:其中,cdf
min
为像素值的累积分布函数最小值、M
×
N为行车图像像素数、G
i
为灰度级数。3.根据权利要求1所述一种融合深度学习特征光流与双目视觉的运动估计方法,其特征在于,构建基于深度学习的光流特征提取模型,对运动目标物进行识别训练,具体为:根据光流特性设计局部平滑假设,得到光流方程:其中,x为像素横坐标,y为像素纵坐标,t为时间;dx、dy、dt为x、y、t的微分,I为光流图像信息;α为微分运算符号,Δx、Δy、Δt为x、y、t的变化值;构建两个共享权重的CNN层对行车图像特征进行提取;将两张行车图像的特征对进行内积计算:特征f1∈R
H
×
W
×
D
和特征f2∈R
H
×
W
×
D
分别表示行车图像I1和I2的特征,将特征向量两两内积则得到视觉相似度,表示为:其中C(f1,f2)∈R
H
×
W
×
H
×
W
,ij、kl分别为第一帧与第二帧图像光流点所在的位置信息,d为所取图像具体通道,取值范围为[0,D

1],C为四维向量特征;其中H、W为图像分辨率,D为通道数量;构建金字塔对所述四维向量特征进行池化操作;获取高分辨率行车图像的四维向量特征:由于金字塔层级之间存在数据代价,记两帧之间光流对应点x

=(u+f1(u),v+f2(v)),u为像素横坐标,v为像素纵坐标,f1为第一帧图像光流特征,f2为第二帧图像光流特征,邻域网格为m为层数,则通过查找光流在每层上所对应的任意位置,其中k为任意实数;根据该对应关系,高分辨率行车图像的四维向量特征表示为:
其中m为金字塔第m层,p、q分别为光流点在第m层上像素矩阵中的第p行第q列信息;所述CNN层对行车图像数据进行迭代更新:给定当前光流状态为f
k
,每次迭代生成一个相对于上次迭代输出的残差光流即更新值f1Δf,则下一步光流预测值为Δf+f
k
=f
k+1
;更新方式为:其中,R
t
为重置门,Z
t
为更新门,σ为函数运算,H
t
为保留的上一阶段隐藏状态的信息量,H
t
‑1为隐藏层,X
t
为光流输入值W
r
、W
z
为权重信息矩阵;得到高分辨率行车图像的四维向量特征后,在金字塔的原分辨率追踪下获取光流的像素信息,即得到运动目标活动区域,该区域的图像最小化位移量为v=[v
x
,v
y
]
T
,每个点邻域范围内的匹配误差和最小值ε(v)为:其中,v
x
,v
y
分别为金字塔顶层横纵位移量,p
x
为光流点横坐标,w
x
为横坐标邻域范围,p
y
为光流点横坐标,w
y
为纵坐标邻域范围,A(x,y)为第一帧光流特征,B(x,y)为第二帧光流特征;在活动区域对运动目...

【专利技术属性】
技术研发人员:关乐张天琦王鑫阳王珍张志新
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1