当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于金字塔结构的光流估计方法技术

技术编号:21972764 阅读:24 留言:0更新日期:2019-08-28 01:45
本发明专利技术涉及一种基于金字塔结构的光流估计方法,包括以下步骤:构建空间金字塔孪生网络模型;构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;在光流训练集中获取一组图片对和对应的光流标签;采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;在光流测试集上,使用该空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。与现有技术相比,本发明专利技术具有准确度高、效率高等优点。

An Optical Flow Estimation Method Based on Pyramid Structure

【技术实现步骤摘要】
一种基于金字塔结构的光流估计方法
本专利技术涉及一种光流估计方法,尤其是涉及一种基于金字塔结构的光流估计方法。
技术介绍
光流是图像亮度模式的表观运动。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像一种光的“流”,故称之为光流。从本质上说,光流就是你在这个运动着的世界里感觉到的明显的视觉运动。光流表达了图像的变化,由于它包含了目标运动的信息,因此可被观察者用来确定目标的运动情况。由光流的定义可以引申出光流场,它是指图像中所有像素点构成的一种二维瞬时速度场,其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影。对光流的研究已经成为计算机视觉及有关研究领域中的一个重要部分。二十多年来,多种光流估计的方法被提出,光流估计的准确性也不断得到提高。但是基于梯度的传统光流计算方法有多个前提假设,比如相邻帧之间的亮度恒定,相邻视频帧的取帧时间连续,相邻帧之间物体的运动比较“微小”,保持空间一致性等。这些假设可能影响在真实情况下的光流计算,导致在实际应用中准确度下降。同时,由于传统光流法采用迭代的方法,计算复杂耗时。基于匹配的传统光流估计算法通过不断地对目标主要特征区域进行定位、跟踪和匹配来计算稀疏光流。虽然这类算法可以对大位移运动和亮度变化的鲁棒性,但难以估计亚像素精度的光流且计算耗时。这两类传统方法如果没有特殊的硬件支持,很难应用于视频序列的实时检测。如今,随着深度学习的发展,越来越多的研究领域开始借助深度学习的方法获得更多研究成果,比如图像分类、目标识别等等。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务。深度学习能够通过对大量数据的学习获得提取特征的能力,从而替代手工获取特征。使用深度学习技术进行光流估计能够获得比传统光流法更高的准确度,并且大大提高光流估计的速度,达到接近实时检测的效果。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于金字塔结构的光流估计方法。本专利技术的目的可以通过以下技术方案来实现:一种基于金字塔结构的光流估计方法,包括以下步骤:S1:构建空间金字塔孪生网络模型;S2:构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;S3:在光流训练集中获取一组图片对和对应的光流标签;S4:采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;S5:参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;S6:在光流测试集上,使用步骤S5获得的空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。进一步地,所述步骤S2中,结构金字塔的每一层中,采用稠密连接的方式将卷积神经网络两两连接,前一个卷积神经网络的输出作为后一个卷积神经网络的输入;层与层之间,每一层的输出经过上采样后作为下一层的输入,最高层的输出经过上采样后,使得分辨率与输入图片分辨率相同,作为结构金字塔的输出结果。进一步地,所述步骤S4中,对图片对进行多尺度特征提取和下采样,在空间金字塔的每个层获得不同分辨率和通道数的特征对,具体过程包括:S401:将一对图片分别输入到空间金字塔孪生网络模型的两个输入流中;S402:对两张图片进行多尺度特征提取,并对特征进行激活处理;S403:对特征进行下采样;S404:重复步骤S402和S403多次,获取多组特征对,分别作为位于结构金字塔不同层的卷积神经网络的输入,具体为:将空间金字塔孪生网络模型未被输入的特征对中分辨率最小的特征对,从最底层开始,输入结构金字塔一层中的每一个卷积神经网络中。进一步地,所述步骤S4中,结构金字塔中的卷积神经网络接收到特征对后,首先在卷积神经网络的WCC模块中,对特征对进行特征扭曲(Warping)和代价体构建(CostVolume),再衔接代价体、初始光流和特征对中的第一个特征(Concatenation),计算残差光流,将初始光流和残差光流相加,得到优化后的光流场,最后输入到下一个卷积神经网络作为初始光流,结构金字塔最底层的第一个卷积神经网络的初始光流场为0。进一步地,所述特征扭曲的表达式为;式中,为输入结构金字塔第L层卷积神经网络的特征对中的第二个特征,为特征经过特征扭曲后的特征,为在坐标(x,y)处的特征向量,为在坐标(x,y)处的特征向量,u(x,y)为坐标(x,y)处的光流水平方向的分量,v(x,y)为坐标(x,y)处的光流竖直方向的分量。进一步地,为了减少计算量,只计算局部特征代价体,所述代价体CV的表达式为:式中,CV(x,y)为坐标(x,y)的代价体,为输入结构金字塔第L层卷积神经网络的特征对中的第一个特征,为在坐标(x,y)处的特征向量,d为计算局部特征代价的范围,N为的长度。进一步地,所述计算残差光流fresidual的表达式为:式中,finitial为初始光流,为结构金字塔第L层第n个卷积神经网络。进一步地,所述预测光流fpredicted的表达式为:fpredicted=fresidual+finitial进一步地,所述步骤S5中,结构金字塔网络模型在训练过程中的整体损失之和L(P)1的表达式为:式中,P为所有可学习参数的集合,αl为结构金字塔第l层的损失权重,表示结构金字塔第l层的第n个卷积神经网络计算得到的光流场在(x,y)处的光流向量,表示结构金字塔第l层的第n个卷积神经网络的用于计算损失的标签光流场在(x,y)处的光流向量,γ为正则项的权重,|·|k为计算k-范数。进一步地,所述步骤S5中,结构金字塔网络模型在微调过程中的整体损失之和L(P)2的表达式为:式中,ε为一个常量参数,q为一个决定对异常值的惩罚程度的参数,q≤1。与现有技术相比,本专利技术具有以下优点:(1)本专利技术提出一种结构金字塔网络模型,在结构金字塔网络模型的各个层设置不同数量的多个串联的卷积神经网络,并在每个层中使用网络间的稠密连接,从而将参数量和计算量有效分配于结构金字塔的各个层上,在一定程度上提高光流估计效率。(2)本专利技术对输入特征对进行了特征扭曲和代价体构建,再衔接代价体、初始光流和特征对中的第一个特征,计算残差光流,将初始光流和残差光流相加,得到优化后的光流场,这样的特征处理方式能增加光流估计的准确度。(3)本专利技术将结构金字塔网络模型和空间金字塔网络模型结合,通过空间金字塔孪生网络模型进行多尺度特征提取,再将提取的多尺度特征分别输入到对应结构金字塔网络模型的各个层的卷积神经网络中,空间金字塔孪生网络模型能加快网络的训练速度,并且与结构金字塔网络模型相配合,从而在一定程度上提高光流估计效率。(4)本专利技术对图片对进行了多次的多尺度特征提取和下采样,获取了多组具有较强不变性和可区分性的特征对,分别作为位于结构金字塔不同层的卷积神经网络的输入,从而增加了光流估计的准确度。(5)本专利技术模型的参数量相比于其它光流估计方法的模型较少,有利于本文档来自技高网
...

【技术保护点】
1.一种基于金字塔结构的光流估计方法,其特征在于,包括以下步骤:S1:构建空间金字塔孪生网络模型;S2:构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;S3:在光流训练集中获取一组图片对和对应的光流标签;S4:采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;S5:参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;S6:在光流测试集上,使用步骤S5获得的空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。

【技术特征摘要】
1.一种基于金字塔结构的光流估计方法,其特征在于,包括以下步骤:S1:构建空间金字塔孪生网络模型;S2:构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;S3:在光流训练集中获取一组图片对和对应的光流标签;S4:采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;S5:参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;S6:在光流测试集上,使用步骤S5获得的空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。2.根据权利要求1所述的一种基于金字塔结构的光流估计方法,其特征在于,所述步骤S2中,结构金字塔的每一层中,采用稠密连接的方式将卷积神经网络两两连接,前一个卷积神经网络的输出作为后一个卷积神经网络的输入;层与层之间,每一层的输出经过上采样后作为下一层的输入,最高层的输出经过上采样后作为结构金字塔的输出结果。3.根据权利要求1所述的一种基于金字塔结构的光流估计方法,其特征在于,所述步骤S4中,对图片对进行多尺度特征提取和下采样的具体过程包括:S401:将一对图片分别输入到空间金字塔孪生网络模型的两个输入流中;S402:对两张图片进行多尺度特征提取,并对特征进行激活处理;S403:对特征进行下采样;S404:重复步骤S402和S403多次,获取多组特征对,分别作为位于结构金字塔不同层的卷积神经网络的输入。4.根据权利要求1所述的一种基于金字塔结构的光流估计方法,其特征在于,所述步骤S4中,结构金字塔中的卷积神经网络接收到特征对后,首先对特征对进行特征扭曲和代价体构建,再衔接代价体、初始光流和特征对中的第一个特征,计算残差光流,将初始光流和残...

【专利技术属性】
技术研发人员:王瀚漓孙泽锋
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1