当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于图像的同时检测平面结构和生成平面描述的方法及应用技术

技术编号:28980273 阅读:38 留言:0更新日期:2021-06-23 09:27
本发明专利技术公开了一种基于图像的同时检测平面结构和生成对应平面描述的方法及应用,属于计算机视觉和图像处理领域。本发明专利技术能够针对单张图像,同时提取3D平面和生成对应平面的描述,为了提升平面描述子的辨别能力,本发明专利技术提出一个掩码感知的模块和一个实例三元组的损失函数,能够很好的应用在AR场景中。此外,本发明专利技术还可以将SuperPlane应用到基于图像定位的任务上(图像检索),由于提取平面的面积不同,本发明专利技术提出了一个面积感知的Kullback‑Leibler散度方法来召回相似的图像。通过基于图像检索和增强现实等应用,本发明专利技术展示了在挑战场景中的平面匹配的强大能力和显著的泛化能力。

【技术实现步骤摘要】
一种基于图像的同时检测平面结构和生成平面描述的方法及应用
本专利技术涉及计算机视觉和图像处理领域,尤其涉及一种基于图像的同时检测平面结构和生成平面描述的方法及应用。
技术介绍
查找不同视图之间的对应关系是3D视觉任务,例如增强现实(AR)应用和基于图像的定位(IBL)或图像检索的关键问题。在AR应用程序中,某些虚拟对象通常放置在提取的平面上。传统的平面提取通常遵循以下范式:先进行特征点提取和描述(如SIFT,ORB,SuperPoint等),将匹配的特征点从多个视图中三角化为3D坐标点,然后通过对3D点进行聚类和扩展来估计平面的参数。但是,在具有挑战性的条件下(例如,弱纹理的场景)获得足够的匹配特征点并非易事。一些方法直接执行深度估计,然后对平面进行三角剖分,以便可以将虚拟对象放置在平面上,但它们不能区分语义上不同的区域。例如,墙壁和门可以具有相同的深度,并且将仅检测到一个平面,这不足以实现将帽子悬挂在门上的AR效果。人造场景通常包含丰富的平面结构,人类对世界的感知可能基于单个平面特征,而不是基于低级特征点或全局图像特征。诸如平面结构之类的中层特征可以在某种程度上模拟人类感知世界的方式。鉴于此,本专利技术强调平面检测和描述值得更多关注。基于图像的定位(IBL)任务也可认为是场景识别。基于图像的定位任务是:给定查询图像,从具有地理标记的数据库中的相同位置捕获的参考图像。现有作品可以分为基于图像检索的方法和基于按位置分类方法等,而本专利技术的关注点在于能够生成多个平面描述子,用于检索相似图像。传统的NetVLAD通过提出可学习的VLAD层,将CNN特征转换为具有可学习的语义中心的本地描述子,以进行本地化,它用的是全局或语义特征,这些特征受显着区域的影响很大,并且对动态对象敏感(例如,移动人)导致模糊的匹配。SFRS引入了图像到区域的监督机制,以挖掘困难的阳性样本,从而更有效地进行局部特征学习,尽管SFRS引入了图像到区域监督以自我监督的方式训练图像特征,但它忽略了多区域到多区域监督。与SFRS不同,本专利技术利用多区域到多区域的监督来增强特征向量的可识别性。由于存在许多挑战性问题,同时检测平面结构和生成平面描述仍是一个值得研究的问题。
技术实现思路
本专利技术针对现有技术的不足,提出了一种基于图像的同时检测平面结构和生成平面描述的方法及应用。本专利技术在应对上述问题,进行了以下分析:平面检测应与现实世界中的物体实例相关,随着获得的不同图像,检测到的平面数量也应改变。对于平面描述子,它应该具有处理视角变化,甚至是光照变化等的分辨能力。本专利技术可以遵循诸如PlaneRCNN之类的平面检测网络来检测平面,并构造三元组样本作为对相应平面描述子的监督,三元组样本需要由检测到的平面组成,而不是完整的图像。基于上述分析,本专利技术提出了一个名为SuperPlane的网络结果,用于检测3D平面并从单个图像生成相应的描述,并将其应用于AR场景、图像检索任务等。为了实现上述目的,本专利技术采用如下技术方案:本专利技术的第一个目的在于提出一种基于图像的同时检测平面结构和生成对应平面描述的方法,包括:针对单张图像,利用平面检测和描述网络SuperPlane,生成图像的多个3D平面以及每个平面对应的描述子;所述的平面检测和描述网络SuperPlane包括平面检测子网络和平面描述子网络,所述的平面检测子网络由骨干网络和两个分支构成,第一分支采用Unet网络,第二分支包括区域生成网络RPN+RoIAlign层、卷积层、激活函数层构成;首先通过骨干网络提取图像特征,得到第一特征图;在第一分支中,利用Unet网络获取第一特征图的深度图;在第二分支中,利用区域生成网络RPN和RoIAlign层提取第一特征图中的局部区域信息,获得感兴趣区域;经卷积层提取感兴趣区域的特征,得到第二特征图,再经激活函数层输出每一个实例的分割蒙板图;由深度图和分割蒙板图合成3D平面;所述的平面描述子网络由掩码感知模块、卷积层、平均池化层、全连接层、内部正则化层和L2范数层构成;将由平面检测子网络输出的第二特征图和分割蒙板图进行逐个像素相乘,以获得掩码感知的第三特征图,然后将第三特征图与第二特征图拼接作为第四特征图;将第四特征图依次经卷积层、平均池化层、全连接层后生成矩阵,通过内部正则化层转换为向量,最后使用L2范数层进行整体归一化,得到每一个3D平面对应的描述子。本专利技术的第二个目的在于提供一种上述方法在AR场景中的应用。本专利技术的第三个目的在于提供一种上述方法在图像检索任务中的应用,将多平面匹配相似度集成到整个图像相似度中。现有技术相比,本专利技术的优势在于:1)本专利技术是一种同时检测平面结构和生成平面描述的方法。本专利技术是第一次尝试从单个图像中检测3D平面并同时生成对应的平面描述的方法。它可以用于实现多个虚拟物体放置到特定平面的AR应用,也可以用于实现如弱纹理、重复纹理等挑战场景的平面匹配任务,可以作为SLAM回环检测或重定位模块的技术支撑。2)本专利技术提出的平面描述的基准可以用于单张图像多平面描述子性能的衡量基准,另外在训练平面描述子提出的实例三元组可以较好的增强图像检索的细粒度辨别能力。3)本专利技术提出的基于SuperPlane的图像定位方案中,模型只在提出的平面描述基准(PlaneDescriptionBenchmark)上训练,但并未在图像定位的数据集上测试,结合全局描述子取得了基本最先进的性能,体现了较好的泛化能力。附图说明图1是本专利技术提出的SuperPlane网络的结构示意图;图2是本实施例中在SuperPlane网络中引入循环扭曲优化网络之后的应用示意图;图3是本实施例中将SuperPlane用于图像检索任务的示意图;图4是本专利技术提出的平面描述基准(PDB,PlaneDescriptionBenchmark)构造的示意图;图5是本专利技术在弱纹理场景能稳定检测平面并匹配,与基于特征点方法提取不出足够特征点无法生成平面的对比结果;图6是本专利技术在重复纹理场景能稳定检测平面并匹配的结果图;图7是本专利技术提出的面积感知KL散度方法优于传统KL散度方法的对比图;图8是本专利技术在图像检索任务中,与现有方法相比,能鲁棒应对视角变化和光照变化的对比图;图9是本专利技术展示了单平面检测用于AR应用场景中虚拟物体放置与平面匹配用于纹理映射的效果图;图10是本专利技术展示了多平面检测用于AR应用场景中多虚拟物体放置的效果图。具体实施方式下面结合说明书附图对本专利技术进行详细说明。本专利技术中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。本专利技术是一种同时检测平面结构和生成平面描述的方法,输入每张RGB图像,运行共享权重的SuperPlane网络,可以得到每张图像的多个平面和生成对应的描述子,根据计算的描述子可以得到匹配的平面。使用得到的匹配平面可以支持如虚拟物体放置在平面的本文档来自技高网
...

【技术保护点】
1.一种基于图像的同时检测平面结构和生成对应平面描述的方法,其特征在于,包括:/n针对单张图像,利用平面检测和描述网络SuperPlane,生成图像的多个3D平面以及每个平面对应的描述子;/n所述的平面检测和描述网络SuperPlane包括平面检测子网络和平面描述子网络,所述的平面检测子网络由骨干网络和两个分支构成,第一分支采用Unet网络,第二分支包括区域生成网络RPN+RoIAlign层、卷积层、激活函数层构成;/n首先通过骨干网络提取图像特征,得到第一特征图;/n在第一分支中,利用Unet网络获取第一特征图的深度图;/n在第二分支中,利用区域生成网络RPN和RoIAlign层提取第一特征图中的局部区域信息,获得感兴趣区域;经卷积层提取感兴趣区域的特征,得到第二特征图,再经激活函数层输出每一个平面的分割蒙板图;/n由深度图和分割蒙板图合成3D平面;/n所述的平面描述子网络由掩码感知模块、卷积层、平均池化层、全连接层、内部正则化层和L2范数层构成;/n将由平面检测子网络输出的第二特征图和分割蒙板图进行逐个像素相乘,以获得掩码感知的第三特征图,然后将第三特征图与第二特征图拼接作为第四特征图;将第四特征图依次经卷积层、平均池化层、全连接层后生成矩阵,通过内部正则化层转换为向量,最后使用L2范数层进行整体归一化,得到每一个3D平面对应的描述子。/n...

【技术特征摘要】
1.一种基于图像的同时检测平面结构和生成对应平面描述的方法,其特征在于,包括:
针对单张图像,利用平面检测和描述网络SuperPlane,生成图像的多个3D平面以及每个平面对应的描述子;
所述的平面检测和描述网络SuperPlane包括平面检测子网络和平面描述子网络,所述的平面检测子网络由骨干网络和两个分支构成,第一分支采用Unet网络,第二分支包括区域生成网络RPN+RoIAlign层、卷积层、激活函数层构成;
首先通过骨干网络提取图像特征,得到第一特征图;
在第一分支中,利用Unet网络获取第一特征图的深度图;
在第二分支中,利用区域生成网络RPN和RoIAlign层提取第一特征图中的局部区域信息,获得感兴趣区域;经卷积层提取感兴趣区域的特征,得到第二特征图,再经激活函数层输出每一个平面的分割蒙板图;
由深度图和分割蒙板图合成3D平面;
所述的平面描述子网络由掩码感知模块、卷积层、平均池化层、全连接层、内部正则化层和L2范数层构成;
将由平面检测子网络输出的第二特征图和分割蒙板图进行逐个像素相乘,以获得掩码感知的第三特征图,然后将第三特征图与第二特征图拼接作为第四特征图;将第四特征图依次经卷积层、平均池化层、全连接层后生成矩阵,通过内部正则化层转换为向量,最后使用L2范数层进行整体归一化,得到每一个3D平面对应的描述子。


2.根据权利要求1所述的基于图像的同时检测平面结构和生成对应平面描述的方法,其特征在于,利用一个平面描述基准来训练网络,具体为:
获取图像对,采用PlaneRCNN生成的平面索引;每对图像样本都包含一组对应的匹配项、图像对之间的相对位姿和相机内参,所述的匹配项为平面索引-平面索引,构成三元组;
构建平面基准,通过相对位姿将图像对中的一张图像扭曲到另一张图像,然后计算交集IOU,来选择三元组,筛选出IOU值处于0.4-0.7的三元组作为训练集。


3.根据权利要求2所述的基于图像的同时检测平面结构和生成对应平面描述的方法,其特征在于,在训练过程中引入循环扭曲优化网络,根据两张视图对应的深度图进行优化,具体为:
将第一张视图中的3D点Pc利用相对姿态信息投影到第二张视图中,然后利用双线性插值从第二张视图中读取对应的3D点Pn;利用拍摄不同视角的相机姿态,将Pn转换到第一张视图的坐标系,并计算转换后的坐标与转换前的坐标Pn之间的3D距离;
将第二张视图中的3D点Pn利用相对姿态信息投影到第一张视图中,然后利用双线性插值从第一张视图中读取对应的3D点Pc;利用拍摄不同视角的相机姿态,将Pc转换到第一张视图的坐标系,并计算转换后的坐标与转换前的坐标Pc之间的3D距离;
通过保持两张图像之间重建的3D平面的一致性来提升平面检测和深度估计的质量。


4.根据权利要求3所述的基于图像的同时检测平面结构和生成对应平面描述的方法,其特征在于,两张不同视角的视图需存在交叠,且两张视图的相对姿态、拍摄不同视角的相机姿态已知。


5.根据权利要求3所述的基于图像的同时检测平面结构和生成对应平面描述的方法,其特征在于,在训练过程中引入平面实例级三重态损失,随机选择一...

【专利技术属性】
技术研发人员:鲍虎军章国锋叶伟才
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1