一种从单幅照片恢复出场景基本三维结构的方法技术

技术编号:16606243 阅读:326 留言:0更新日期:2017-11-22 16:16
本发明专利技术公开了一种基于深度学习从单幅照片恢复出场景基本三维结构的方法,其步骤为:(1)利用深度卷积神经网路,对输入图片进行一系列变换操作,得到每一个像素的语义标签;(2)利用图像语义分割的输出结果图,将原图中属于前景的部分去掉,得到一张去除了前景的待修复图;(3)对于所有待修复像素,确定其修复优先级,结合当前优先级最高的被去除像素点附近的语义信息,从步骤(2)的输出图中寻找最佳匹配块,将该最佳匹配块复制到待修补位置处;(4)根据地面、立面交线,对步骤(3)得到的修复完毕的图像进行翻折操作,得到一张地面、立面相垂直的输出图,从而实现场景基本三维结构的恢复工作。

A method of recovering the basic 3D structure of a scene from a single photo based on deep learning

The invention discloses a method based on deep learning from a single photo recovery method of scene basic 3D structure, which comprises the following steps: (1) using convolutional neural networks, a series of transform operations on the input image, get the semantic labels for each pixel; (2) using the output image semantic segmentation map. The original belongs to the foreground part removed, a removal of the prospects to be repaired; (3) for all pixels to be repaired, the repair priority, combined with the highest priority is to remove the semantic information of pixels near, from step (2) to find the best matching block in the output graph. The best matching block is copied to the mending position; (4) according to the ground elevation, the intersection of steps (3) the repaired image folding operation, a vertical surface of the ground, vertical output Graph, so as to achieve the recovery of the basic three-dimensional structure of the scene.

【技术实现步骤摘要】
一种基于深度学习从单幅照片恢复出场景基本三维结构的方法
本专利技术属于虚拟现实领域,具体涉及一种基于深度学习从单幅照片恢复出场景基本三维结构的方法,其为通过对单幅图像进行图像语义分割、目标去除、图像修复及图像翻折等一系列操作,实现三维场景重建的方法。
技术介绍
三维场景重建是机器视觉的核心任务之一,也是人工智能研究领域中的一个重要研究方向。随着数字城市、智慧城市的发展,场景重建技术已成为近年来广大学者研究的热点。在本专利技术前,已经有人对场景重建技术做了相关研究。基于图片的三维场景重建方法分为双目视觉三维重建方法和单目视觉三维重建方法。双目视觉三维重建方法使用两台摄像机从两个视点(左右平行或上下平行)观测同一物体,获取在物体不同视角下的感知图像,通过三角测量的方法将匹配点的视差信息转换为深度信息。该种方法大致可以分为图像获取、摄像机标定、特征提取与匹配、摄像机校正、立体匹配和三维建模六个步骤。双目视觉三维重建方法的优点是方法成熟,能够稳定地获得较好的重建结果;不足是运算量很大,且在基线距离较大的情况下重建效果明显降低。鉴于双目视觉三维重建方法的不足,以及时下深度学习突飞猛进的发展,本专利技术将深度学习与单目视觉三维重建方法相结合,提出一种基于单幅图像进行场景重建的方法。目前,基于单幅图像的场景重建最广泛和最实用的方法利用几何投影的原理进行重建。每一幅图像中含有的大量平行线、平行面、垂直线、垂直面、消失点、消失线等多种几何属性的约束,利用图像的这些几何约束进行摄像机标定或平面标定。进而估算出摄像机的内部各种参数、摄像机的焦距;然后通过测量目标的几何形状或计算目标高度来估算出必需的深度信息;最后利用几何投影知识等对图像进行数字化的表述,构建数字化的三维模型,将得到的模型绘制出来,这就是整个的基于单幅图像的传统三维重建过程。但这个过程自动化程度有待提高,步骤较为繁琐。例如,在进行摄像机标定和平面标定过程中,很容易由于标定误差而对最终效果产生影响。近几年来,随着深度学习技术的发展,计算机对图像的语义处理能力逐步增强。利用基于深度学习的图像语义分割技术可以快速地对图像进行语义化分割,把图像中不同位置具有相同语义的像素点聚类成一个分类,并以不同颜色进行标记。随着图像语义分割技术的发展,其分割准确率与效率逐年提高。利用这种技术,可以快速得到图像中的前景、背景等语义信息。图像修复技术即是利用破损区域周围的已知信息,按照一定的规则,来修补图像中遗失或者损坏的部分,以恢复图像的完整性。其方法主要分为两类:基于PDE的图像修复方法和基于样本的纹理合成方法。基于PDE的图像修复技术的主要思想是,利用待修补区域的边缘信息,从区域边界各向异性地向边界内扩散。该方法对小尺度破损处理的效果非常好;基于纹理的图像修复技术借鉴了纹理合成方法中的思想来寻找样本进行匹配复制,它主要分为基于图像分解修复算法,如Bertalmio等人在2003年提出的一种将图像分解成结构和纹理两部分同时进行修复的方法,和基于样本的纹理合成算法。其中Criminisi等人提出的算法以其实现简单和准确得到了广泛的应用。该算法充分利用了基于结构修复方法中的扩散方式来定义修复块的优先级,使得边缘附近(具有较多结构信息)的修复块具有较高的优先级,从而在修复纹理信息的同时对结构信息由一定的保持。本专利技术在该方法的基础上,与图像语义分割技术相结合,使修复技术快速且完善。POP-UP技术将二维图像中的地面与立面的交线作为折线,通过坐标转换技术实现将立面向上翻折,达到将二维图片构建成三维场景的目的。
技术实现思路
本专利技术的目的是:提供了一种基于单幅图像实现三维场景重建的方法。在图像语义分割过程中,对输入图片进行图像的语义分割,根据图像本身的一些特征,比如色彩、纹理等,把图像中不同位置具有相同语义的像素点打上同类标签,得到语义分割图。在目标去除过程中,以原图和前后景二值图作为输入,利用数学运算中的“与”运算,原图中的前景部分则被去除,由此得到一张待修复图。在图像修复过程中,基于Criminisi等人提出的算法,结合待修复像素块附近的语义信息,选取最佳补丁,复制到待修复像素块处。在图像翻折过程中,将立面部分像素点的二维坐标,经转换得到三维坐标系的坐标,从而确定像素点在三维坐标系中应处的位置,由此构建一个与地面垂直的立面,实现立面的翻折操作。本专利技术采用的技术方案为:一种基于深度学习从单幅照片恢复出场景基本三维结构的方法,包括如下步骤:步骤一、利用深度卷积神经网络对图片进行处理,具体步骤为:(ft1)对输入图进行卷积、池化及非线性变换等操作,得到图片的特征图;(ft2)在完成适当次数的步骤(ft1)操作后,对最后一张输出图进行逐像素分类,得到每个像素的类别,并为每个像素打上语义标签;(ft3)对步骤(ft2)的输出进行反卷积等处理,提高其分辨率,从而得到更多细节信息,作为输出结果图,记为M1;步骤二、目标去除是利用图像语义分割的输出结果图,扣除原图中前景的操作,其步骤为:(cm1)将图像语义分割的结果图转化为二值图,二值图中,属于前景部分的像素值为0;(cm2)以原图和步骤(cm1)得到的二值图作为输入,两张图中,坐标值相同的像素进行按位相与操作,得到的结果图即为去除了前景的待修复图,记为G2;步骤三、图像修复是根据目标去除操作的输出结果图中的背景部分,修复输出结果图中被去除部分的操作,其步骤为:(xt1)确定原图中地面、立面交线;(xt2)确定待修补像素的优先级;(xt3)根据待修复像素可能属于的类别,在步骤(cm2)得到的输出结果图G2中寻找最佳匹配块,将该最佳匹配块复制到待修补位置处;(xt4)判断全图是否修补完毕,若未完毕,则根据优先级顺序,确定下一块待修补像素,执行(xt3)操作;若修补完毕,则图像修复工作完成;步骤四、图像翻折是根据地面、立面mask图,对图像修复阶段得到的修复结果图的立面进行翻折,得到立面翻折图的过程,其步骤为:(zt1)根据原图的地面、立面交线,将原图分为地面、立面两部分,由此构建一张地面、立面的二值化mask图,其中,立面部分像素为0;(zt2)根据步骤(zt1)得到的二值化mask图,对图像修复阶段得到的修复结果图的立面进行翻折,得到立面翻折图。本专利技术的原理在于:首先通过图像语义分割的方法将前景与背景信息提取出来,得到语义分割图。在该语义分割图基础上,做二值化处理,分别得到前景、背景mask图,地面、立面mask图。利用原图与前景、背景二值mask图,得到去除了前景的待修复图,将该待修复图利用图像修复技术进行修复,得到一张只含有背景信息的图片。将该图片与地面、立面mask图作为输入,经pop-up操作,实现基于单幅图像进行三维场景重建的目的。本专利技术与现有技术相比的优点在于:(1)本专利技术在进行图像修复时,结合了被修复点的语义分割信息,可以有效提升修复准确度;(2)本专利技术在进行地面、立面翻折前,首先利用语义分割和目标去除、图像修复技术复原出场景基本三维结构,可以有效提升翻折效果,避免了前景信息的干扰。附图说明图1为本专利技术的一种基于深度学习从单幅照片恢复出场景基本三维结构的方法的流程图示意图;图2为本专利技术的图像语义分割流程示意图;图3为本专利技术的图像修复技术中待本文档来自技高网
...
一种从单幅照片恢复出场景基本三维结构的方法

【技术保护点】
一种基于深度学习从单幅照片恢复出场景基本三维结构的方法,其特征在于:包括如下步骤:步骤一、利用深度卷积神经网络对图片进行处理,具体步骤为:(ft1)对输入图进行卷积、池化及非线性变换等操作,得到图片的特征图;(ft2)在完成适当次数的步骤(ft1)操作后,对最后一张输出图进行逐像素分类,得到每个像素的类别,并为每个像素打上语义标签;(ft3)对步骤(ft2)的输出进行反卷积等处理,提高其分辨率,从而得到更多细节信息,作为输出结果图,记为M1;步骤二、目标去除是利用图像语义分割的输出结果图,扣除原图中前景的操作,其步骤为:(cm1)将图像语义分割的结果图转化为二值图,二值图中,属于前景部分的像素值为0;(cm2)以原图和步骤(cm1)得到的二值图作为输入,两张图中,坐标值相同的像素进行按位相与操作,得到的结果图即为去除了前景的待修复图,记为G2;步骤三、图像修复是根据目标去除操作的输出结果图中的背景部分,修复输出结果图中被去除部分的操作,其步骤为:(xt1)确定原图中地面、立面交线;(xt2)确定待修补像素的优先级;(xt3)根据待修复像素可能属于的类别,在步骤(cm2)得到的输出结果图G2中寻找最佳匹配块,将该最佳匹配块复制到待修补位置处;(xt4)判断全图是否修补完毕,若未完毕,则根据优先级顺序,确定下一块待修补像素,执行(xt3)操作;若修补完毕,则图像修复工作完成;步骤四、图像翻折是根据地面、立面mask图,对图像修复阶段得到的修复结果图的立面进行翻折,得到立面翻折图的过程,其步骤为:(zt1)根据原图的地面、立面交线,将原图分为地面、立面两部分,由此构建一张地面、立面的二值化mask图,其中,立面部分像素为0;(zt2)根据步骤(zt1)得到的二值化mask图,对图像修复阶段得到的修复结果图的立面进行翻折,得到立面翻折图。...

【技术特征摘要】
1.一种基于深度学习从单幅照片恢复出场景基本三维结构的方法,其特征在于:包括如下步骤:步骤一、利用深度卷积神经网络对图片进行处理,具体步骤为:(ft1)对输入图进行卷积、池化及非线性变换等操作,得到图片的特征图;(ft2)在完成适当次数的步骤(ft1)操作后,对最后一张输出图进行逐像素分类,得到每个像素的类别,并为每个像素打上语义标签;(ft3)对步骤(ft2)的输出进行反卷积等处理,提高其分辨率,从而得到更多细节信息,作为输出结果图,记为M1;步骤二、目标去除是利用图像语义分割的输出结果图,扣除原图中前景的操作,其步骤为:(cm1)将图像语义分割的结果图转化为二值图,二值图中,属于前景部分的像素值为0;(cm2)以原图和步骤(cm1)得到的二值图作为输入,两张图中,坐标值相同的像素进行按位相与操作,得到的结果图即为去除了前景的待修复图,记为G2;步骤三、图像修复是根据...

【专利技术属性】
技术研发人员:周忠李明阳庚琦川吴威
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1