一种基于多重语义交互的递归式场景理解方法技术

技术编号:20364196 阅读:16 留言:0更新日期:2019-02-16 17:07
本发明专利技术提供一种基于多重语义交互的递归式场景理解方法,方法包括步骤:提供一待检测图像,通过场景表面布局估计输出待检测图像的几何和语义本征图像;根据上述几何和语义本征图像辅助场景中的物理边界的推理,并通过结合推理出的物体边界信息和相机视点信息对图像场景中物体的相对深度关系进行估计;对待检测图像进行物体/视点检测,并结合深度关系的估计结果,获取最终检测结果。这种基于本征信息交互的反馈式设计能够有效改善前馈式系统存在的不足,并且具有良好的可扩展性。

【技术实现步骤摘要】
一种基于多重语义交互的递归式场景理解方法
本专利技术涉及图像处理领域,尤其涉及一种基于多重语义交互的递归式场景理解方法。
技术介绍
作为计算机视觉领域的研究热点,场景理解技术受到了广泛的关注与研究。根据图像的多层次语义表达,场景理解可分为局部和全局场景理解两大方面。其中,前者涉及诸如物体类和形状的识别,相机姿态和位置估计以及场景深度预测等图像中包含的多种语义研究,而后者则聚焦于场景的整体分析,其需要综合对多种图像语义挖掘的基础上分析不同语义之间存在的内在关联性,也就是图像上下文关系的研究。图像上下文关系的研究对于计算机更深入而准确地理解图像内容具有非常重要的意义。近二十年里,关于图像上下文关系的研究已取得了不少成果,比如:Murphy等人利用全局GIST表示同时对场景深度和相机视点进行估计以改进物体识别的精度,而Sudderth等人和Liu等人分别借助物体检测的结果辅助场景深度的推理。除此之外,其他学者还尝试建立物体和场景几何之间的语义关系或者对不同物体之间的共生关系进行建模等以改进上述场景理解的可靠性。不过,以上方法均遵循了1978年Marr提出的以前馈(Feed-Forward)的方式建立视觉分析系统并逐步生成高层图像语义的思路。然而,该思路存在的主要缺陷是当某一环节一旦出错将直接导致整个系统对该错误无法进行纠正。
技术实现思路
本专利技术的技术方案是:一种基于多重语义交互的递归式场景理解方法,方法包括步骤:S1、提供一待检测图像,通过场景表面布局估计输出待检测图像的几何和语义本征图像;S2、根据上述几何和语义本征图像辅助场景中的物理边界的推理,并通过结合推理出的物体边界信息和相机视点信息对图像场景中物体的相对深度关系进行估计;S3、对待检测图像进行物体/视点检测,并结合深度关系的估计结果,获取最终检测结果。较佳的,场景表面布局估计算法输出十个本征图像,本征图像包括一个地面支撑区域的置信度图、垂直于地面的六个平面区域、两个非平面区域置信度图以及一个天空区域置信度图。较佳的,在步骤S2中,利用边界信息和深度信息改善待检测图像中场景的集合和语义标注的方法包括:查找待检测图像的分隔块内最有可能的边界e,并根据训练条件随机场模型后输出的边界置信度P(e|I)判断该分割块是否具有单一的场景几何标注:当P(e|I)>0.5时,我们认为分割块具有单一的平面几何标注,否则判断其内部混合了具有多种平面几何标注的超像素。较佳的,在每个分割块中分别计算所有像素点的平均深度以及深度斜率将图像分块的平均深度作为能量项加入到FDepth,将深度斜率作为新的统计特征用于场景表面布局估计算法中平面几何标注分类器的重训练。较佳的,边界/深度估计算法和物体/视点检测算法在进行语义交互时,包括步骤:在待检测图像的每个分割块中,计算各个物体类检测假设的平均和最大置信度,统计所有物体类假设的平均置信度之和、两个近邻分割块之间物体假设的平均置信度的绝对值差之和不同物体假设置信度之间的最大绝对值之差三个统计特征,利用上述三个统计特征训练基于Adaboost的逻辑回归分类器,将训练后的逻辑回归分类器已对近邻分割块是否属于同一物体进行预测;于如果物体/视点检测算法输出的物体假设与边界/深度估计模块得到的结果不一致,则将该物体假设丢弃;于边界/深度估计算法输出的划分后的区域与物体检测框之间有至少50%的区域重叠,该区域被标注为此物体类;于被标注为某物体类的区域面积小于期望物体类面积的25%,那么该候选物体假设也将被剔除。较佳的,方法还包括步骤:S41、利用物体/视点检测算法获取待检测图像的物体检测假设,学习物体在图像中的存在性、位置以及尺寸三种上下文语义特征,对语义特征进行加权,获取物体假设的置信图以及水平线的位置估计;S42、根据物体假设的置信图以及水平线的位置统计获取物体类特征输入以及水平线位置与表面区域的顶部和底部之间的行坐标之差;S43、将物体类特征输入以及行坐标差作为初始的场景表面布局估计算法进行重新训练,以改进视点和密度类的估计。较佳的,物体/视点检测算法输出物体假设的置信度图以及水平线的位置估计两个本征图像。较佳的,对于每个表面区域k,分别利用三种新的统计特征对初始的场景表面布局估计算法进行重新训练以改进视点和密度类的估计,这三种新的统计特征为:对每个像素的物体类置信度Pobj(k)求和并计算其均值作为新的物体类特征输入f1、统计物体/视点估计算法输出的水平线位置H的顶部和底部之差f2、表面区域k的顶部和底部之差f3。上述技术方案具有如下优点或有益效果:本文提出了一种简易的交互式方法,其特点在于场景语义的不确定性能够通过不同的视觉分析过程协同工作实现求解和优化。在该方法中,我们分别使用了三个经典的场景理解算法作为视觉分析模块,不同模块之间利用彼此输出的表面布局,边界,深度,视点和物体类等上下文语义之间的交互以实现各自性能的渐进式提升。实验结果表明,这种基于本征信息交互的反馈式设计能够有效改善前馈式系统存在的不足,并且具有良好的可扩展性。附图说明参考所附附图,以更加充分的描述本专利技术的实施例。然而,所附附图仅用于说明和阐述,并不构成对本专利技术范围的限制。图1为本专利技术一种基于多重语义交互的递归式场景理解方法的流程示意图一;图2为本专利技术一种基于多重语义交互的递归式场景理解方法中基于递归的场景表面布局估计算法的示意图;图3为本专利技术一种基于多重语义交互的递归式场景理解方法的流程示意图二;图4为本专利技术一种基于多重语义交互的递归式场景理解方法中融合多种上下文信息的物体/视点估计的流程示意图;图5为本专利技术一种基于多重语义交互的递归式场景理解方法的流程框图;图6为本专利技术一种基于多重语义交互的递归式场景理解方法中不同视点估计算法的误差对比。具体实施方式下面结合附图和具体实施例对本专利技术一种基于多重语义交互的递归式场景理解方法进行详细说明。如图1所示,一种基于多重语义交互的递归式场景理解方法,包括步骤:S1、提供一待检测图像,通过场景表面布局估计输出该待检测图像的几何和语义本征图像;S2、根据上述几何和语义本征图像辅助场景中的物理边界的推理,并通过结合推理出的物体边界信息和相机视点信息对图像场景中物体的相对深度关系进行估计;S3、对待检测图像进行物体/视点检测,并结合深度关系的估计结果,获取最终检测结果。具体来说,在本申请中提出了三种检测方法的结合检测方法,即表面布局估计方法、边界/深度估计方法以及物体/视点检测方法。首先,由表面布局估计方法检测出待检测图像的几何和语义本征图像结果,然后将该图像结果进行物理边界推理以获取物理边界信息,将物理边界信息与相机视点信息进行结合,以对该待检测图像的相对深度关系进行估计。最后,利用物体/视点检测方法对该待检测图像进行检测,将该检测结果结合上一步骤中的深度关系的估计结果以获取最终检测结果。近一步来讲,在步骤S1中,场景表面布局估计算法输出十个本征图像包括:一个地面支撑区域的置信度图(Ground);垂直于地面的六个平面区域和两个非平面区域置信度图(Vertical);一个天空区域置信度图(Sky)。场景表面布局估计算法根据相机的不同视角来定性地描述三维空间,其根据图像分块的投影方式不同分可分为八种不同的视角类型。为了描述施本文档来自技高网...

【技术保护点】
1.一种基于多重语义交互的递归式场景理解方法,其特征在于,方法包括步骤:S1、提供一待检测图像,通过场景表面布局估计输出待检测图像的几何和语义本征图像;S2、根据上述几何和语义本征图像辅助场景中的物理边界的推理,并通过结合推理出的物体边界信息和相机视点信息对图像场景中物体的相对深度关系进行估计;S3、对待检测图像进行物体/视点检测,并结合深度关系的估计结果,获取最终检测结果。

【技术特征摘要】
1.一种基于多重语义交互的递归式场景理解方法,其特征在于,方法包括步骤:S1、提供一待检测图像,通过场景表面布局估计输出待检测图像的几何和语义本征图像;S2、根据上述几何和语义本征图像辅助场景中的物理边界的推理,并通过结合推理出的物体边界信息和相机视点信息对图像场景中物体的相对深度关系进行估计;S3、对待检测图像进行物体/视点检测,并结合深度关系的估计结果,获取最终检测结果。2.根据权利要求1的基于多重语义交互的递归式场景理解方法,其特征在于,场景表面布局估计算法输出十个本征图像,本征图像包括一个地面支撑区域的置信度图、垂直于地面的六个平面区域、两个非平面区域置信度图以及一个天空区域置信度图。3.根据权利要求1的基于多重语义交互的递归式场景理解方法,其特征在于,在步骤S2中,利用边界信息和深度信息改善待检测图像中场景的集合和语义标注的方法包括:查找待检测图像的分隔块内最有可能的边界e,并根据训练条件随机场模型后输出的边界置信度P(e|I)判断该分割块是否具有单一的场景几何标注:当P(e|I)>0.5时,我们认为分割块具有单一的平面几何标注,否则判断其内部混合了具有多种平面几何标注的超像素。4.根据权利要求2的基于多重语义交互的递归式场景理解方法,其特征在于,在每个分割块中分别计算所有像素点的平均深度以及深度斜率将图像分块的平均深度作为能量项加入到FDepth,将深度斜率作为新的统计特征用于场景表面布局估计算法中平面几何标注分类器的重训练。5.根据权利要求1的基于多重语义交互的递归式场景理解方法,其特征在于,边界/深度估计算法和物体/视点检测算法在进行语义交互时,包括步骤:在待检测图像的每个分割块中,计算各个物体类检测假设的平均和最大置信度,统计所有物体类假设的平均置信度之和、两个近邻分割块之间...

【专利技术属性】
技术研发人员:姚拓中安鹏何加铭
申请(专利权)人:宁波工程学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1