适用于2D卷积神经网络的可学习引导滤波模块和方法技术

技术编号:22885597 阅读:47 留言:0更新日期:2019-12-21 07:53
一种适用于2D卷积神经网络的可学习引导滤波模块和方法,在所述引导滤波模块中,对于由输入的原始引导图获得的导向引导图,将每一个导向引导图与向指定方向进行位移后的原始特征图进行逐像素点的相乘操作,并将所有方向乘积结果进行求和,获得处理后的特征图,与原始特征图相比,其是以导向引导图为权重,对不同方向位移后的特征图进行加权求和的结果,从而实现引导滤波。

Learnable guided filtering module and method for 2D convolutional neural network

【技术实现步骤摘要】
适用于2D卷积神经网络的可学习引导滤波模块和方法
本专利技术涉及双目深度估计领域,尤其是一种适用于2D卷积神经网络的可学习引导滤波模块和方法。
技术介绍
双目深度估计(Binoculardepthestimation)任务是根据校准后的双目相机拍摄的两张双目图像,获得场景深度图的过程,在自动驾驶、活体检测、三维重建等领域具有广泛的应用。视差是两张双目图片上对应点的像素距离,视差与深度存在反比关系,因此深度估计任务可以转化为视差匹配任务,深度图与视差图存在对应关系。如图1所示,双目深度估计任务就是要寻找一个计算模型,根据输入的左右目图像估计出左图(或右图)的深度图。例如由哈佛大学和百度联合设计的GANet算法(ZhangF,PrisacariuV,YangR,etal.GA-Net:GuidedAggregationNetforEnd-to-endStereoMatching[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2019:185-194.),由特征提取块、代价聚合模块、用于生成代价权重的引导子网和视差回归模块。左右图像被送进一个孪生的特征提取网络,该网络由沙漏网络堆叠而成,用提取的左右图像特征计算代价块(costvolume),送进代价聚合块中进行正则化,细化和视差回归,引导子网络(绿色)为引导成本聚合过程生成权重矩阵(SGA和LGA),采用多个SGA层进行成本聚合,LGA层可以在视差回归的softmax层前后实现。所得到的视差图具有较锐利的边缘和平滑的平面。现有常用的视差匹配算法有两种,一种是基于回归的视差匹配方式,这种算法直接使用类似分割的网络模型,采用ResNet等基础网络进行特征提取,这种方法全程使用2D卷积实现,具有较快的运行速度,但是准确率不高,例如Monodepth等;另一种方案是采用模仿传统方案的视差分类结构,这种结构一般使用2D孪生结构提取左右图像的特征,然后使用提取到的特征构建代价块(CostVolume),再使用若干3D卷积对三维代价块进行视差回归,这种方案准确率高,但是计算开销大,难以应用在车载芯片等平台上,这种方法的代表是GCNet、PSMNet和GANet等。GANet中使用SGA与LGA进行引导聚合,模拟SGM算法中的动态规划过程,但是这些层都是作用在3D代价块上,而3D代价块的卷积操作对于车载芯片等嵌入式产品是无法承担的计算开销。引导滤波(导向图滤波)是一种图像滤波技术,通过一张引导图G,对目标图像P(输入图像)进行滤波处理,使得最后的输出图像大体上与目标图像P相似,但是纹理部分与引导图G相似。其典型应用有两个:保边图像平滑,抠图。以上
技术介绍
内容的公开仅用于辅助理解本专利技术的专利技术构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述
技术介绍
不应当用于评价本申请的新颖性和创造性。
技术实现思路
本专利技术的主要目的在于提供一种适用于2D卷积神经网络的可学习引导滤波模块和方法,至少解决现有的基于回归的全2D深度估计算法得到的深度图存在轮廓不清晰、平面不光滑,细节不完整、准确率不高的问题。为实现上述目的,本专利技术采用以下技术方案:一种适用于2D卷积神经网络的可学习引导滤波模块,在所述引导滤波模块中,对于由输入的原始引导图转换获得的导向引导图,使每一个导向引导图对应于特征图的向指定方向的位移操作,将每一个导向引导图与相对应方向位移后的特征图进行逐像素点的相乘操作,并将所有方向乘积结果进行求和,获得处理后的特征图,其是以导向引导图为权重,对不同方向位移后的特征图进行加权求和的结果,从而实现引导滤波。进一步地:设定引导半径r,对应的引导窗口宽度为w=2*r+1,以确定引导滤波的范围。引导窗口选择5*5大小,基础网络输出的最终结果为2*H*W维的特征图,2表示左右视差图有两张,或者两个通道,H为图像的高,W为图像的宽,对应的导向引导图为50张,每一张导向引导图与对应通道及位移的特征图进行相乘。对于待处理的特征图F,维度为C*H*W,特征图的位移方向为d,D表示位移方向的集合,F向指定方向进行位移后的结果为其中,位移操作以特征图大小为窗口,将特征图向位移方向滑动,滑出窗口的像素点丢弃,新加入窗口的像素点补零,最终的结果为各个方向的导向引导图ω(d)与该方向位移后的特征图的逐点相乘,表示为并将得到的所有特征图求和的结果Fd(p),表示为公式1:其中p代表特征图或导向引导图上一点。原始引导图通过以下方式中的一种或多种获取:直接使用输入图片,送进网络中提取;使用中间层特征图;使用图片与上采样后的特征图concat在一起后的特征图;使用沙漏网络中间层的多级特征。导向引导图具有原始图像梯度信息。所述引导滤波模块是一系列串联的2D卷积网络。一种适用于2D卷积神经网络的可学习引导滤波方法,使用所述的可学习引导滤波模块实现引导滤波。一种全2D卷积神经网络,具有所述的可学习引导滤波模块。一种2D深度估计系统,包括concat模块,导向引导图提取模块、ResNet模块、以及所述可学习引导滤波模块,用于实现全2D双目深度估计;优选地,其中引导图来源为由所述concat模块concat到一起的左右图像,所述导向引导图提取模块中包含以多个卷积模块,除最后一个卷积模块Conv5只有卷积层之外,每个卷积模块由卷积层、BN层和ReLU层串联而成,所有卷积层的卷积核大小为3,填充和步长均为1,通道数的设置采用先增后减,最后增加为导向引导图的个数;其中,在得到导向引导图之后,通过所述可学习引导滤波模块,将导向引导图与最后一层输出的特征图进行作用,使用导向引导图对不同方向位移后的特征图进行加权求和,获得滤波后的结果图。一种在全2D卷积神经网络中训练引导滤波模块的方法,包括以下三步:1)在加入引导滤波模块之前,首先训练基础网络架构,让模型充分学习;2)在训练好的基础模型中加入所述的可学习引导滤波模块,并固定基础模型的参数,以训练基础模型时四分之一到二分之一的学习率训练2D可学习引导滤波模块,并训练第一阶段的三分之一轮次;3)将模型中所有参数解除固定,以第一阶段学习率的四分之一进行微调,直到充分学习数据集中的信息。本专利技术具有如下有益效果:本专利技术设计了一种可学习引导滤波模块和方法,对于由输入的原始引导图转换得到的导向引导图,将每一个导向引导图与向指定方向进行位移后的原始特征图进行逐像素点的相乘操作,并将所有方向乘积结果进行求和,获得处理后的特征图,与原始特征图相比,其是以导向引导图为权重,对不同方向位移后的特征图进行加权求和的结果,从而实现引导滤波,克服现有技术的缺陷。本专利技术的可学习引导滤波模块可以方便地嵌入到需要保持边缘和补充细节特征的端到端深度学习任务中,在深度估计领域,全2D深度估计网本文档来自技高网
...

【技术保护点】
1.一种适用于2D卷积神经网络的可学习引导滤波模块,其特征在于,在所述引导滤波模块中,对于由输入的原始引导图转换得到的导向引导图,使每一个导向引导图对应于原始特征图的向指定方向的位移操作,将每一个导向引导图与相对应方向位移后的特征图进行逐像素点的相乘操作,并将所有方向乘积结果进行求和,获得处理后的特征图,其是以导向引导图为权重,对不同方向位移后的特征图进行加权求和的结果,从而实现引导滤波。/n

【技术特征摘要】
1.一种适用于2D卷积神经网络的可学习引导滤波模块,其特征在于,在所述引导滤波模块中,对于由输入的原始引导图转换得到的导向引导图,使每一个导向引导图对应于原始特征图的向指定方向的位移操作,将每一个导向引导图与相对应方向位移后的特征图进行逐像素点的相乘操作,并将所有方向乘积结果进行求和,获得处理后的特征图,其是以导向引导图为权重,对不同方向位移后的特征图进行加权求和的结果,从而实现引导滤波。


2.如权利要求1所述的可学习引导滤波模块,其特征在于,设定引导半径r,对应的引导窗口宽度为w=2*r+1,以确定引导滤波的范围;优选地,引导窗口选择5*5大小,基础网络输出的最终结果为2*H*W维的特征图,2表示左右视差图有两张,或者两个通道,H为图像的高,W为图像的宽,对应的导向引导图为50张,每一张导向引导图与对应通道及位移的特征图进行相乘。


3.如权利要求1至2任一项所述的可学习引导滤波模块,其特征在于,对于待处理的特征图F,维度为C*H*W,特征图的位移方向为d,D表示位移方向的集合,F向指定方向进行位移后的结果为其中,位移操作以特征图大小为窗口,将特征图向位移方向滑动,滑出窗口的像素点丢弃,新加入窗口的像素点补零,最终的结果为各个方向的导向引导图ω(d)与该方向位移后的特征图的逐点相乘,表示为并将得到的所有特征图求和的结果Fd(p),表示为公式1:



其中p代表特征图或导向引导图上一点。


4.如权利要求1至3任一项所述的可学习引导滤波模块,其特征在于,原始引导图通过以下方式中的一种或多种获取:直接使用输入图片,送进网络中提取;使用中间层特征图;使用图片与上采样后的特征图concat在一起后的特征图;使用沙漏网络中间层的多级特征。


5.如权利要求1至4任一项所述的可学习引导滤波模块,其特征在...

【专利技术属性】
技术研发人员:李秀宋恺祥
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1