一种基于二维‑三维语义数据集的室内场景理解方法技术

技术编号：15437930 阅读：293 留言：0更新日期：2017-05-26 03:55

本发明专利技术中提出的一种基于二维‑三维语义数据集的室内场景理解方法，其主要内容包括：数据的收集和整理、训练和测试分割，其过程为，先捕捉图像输出扫描区域，输出扫描区域，原始颜色深度图像(RGB‑D)和3D纹理网格，接着通过对网格进行采样生成点云，对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上，最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分，定义标准训练和测试分割。本发明专利技术提出的语义数据集可以利用大规模室内空间中存在的规律来开发联合跨模态学习模型和潜在的无监督方法；为语义、布局、遮挡、形状、模式检测等提供强有力的提示；不受规模、多样性和数量的限制。

To understand the method of two-dimensional 3D semantic data set based on indoor scenes

To understand the method of two-dimensional 3D data sets based on semantic indoor scene is proposed in the present invention, the main contents include: data collection and arrangement, training and testing division, the process is to capture the image output, scanning area, scanning output area, the original color depth of the image (RGB D) and 3D texture the grid, then through the grid sampling point cloud generated, the semantic annotation of data, then each point in the 3D tag projection grid and image domain, finally using some regional data sets are similar in the said building appearance and architectural features. Part of the definition of standard training and testing division. The semantic data provided by the invention can be set by the large-scale indoor space in the law to develop joint cross modal learning model and the unsupervised method potential; provide strong hints for semantic, layout, occlusion, shape, pattern detection and so on; not the size, diversity and quantity limit.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二维-三维语义数据集的室内场景理解方法
本专利技术涉及场景理解领域，尤其是涉及了一种基于二维-三维语义数据集的室内场景理解方法。
技术介绍
室内场景的识别与理解是智能化信息处理的关键技术之一，相关的研究成果已经成功应用在不同的领域，例如，在安全防范领域的目标追踪、行人检测和人脸检测与识别，互联网信息领域的图像内容检索，智能机器人领域的目标搜寻、场景理解、障碍物检测，智能家居和危险环境的救援等，使得人们的工作和生活变得更加方便，因此，室内场景的识别与理解具有重要的理论研究意义和工程应用价值。传统的图像资源利用大多借助低层视觉特征，如颜色、形状、纹理，实质上是计算机对图像内容的理解。然而低层视觉特征仅代表视觉信息，忽略了图像内容所包含的语义信息，与人类对图像的理解存在一定差异。本专利技术提出了一种基于二维-三维语义数据集的室内场景理解方法，先捕捉图像输出扫描区域，输出扫描区域，原始颜色深度图像(RGB-D)和3D纹理网格，接着通过对网格进行采样生成点云，对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上，最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分，定义标准训练和测试分割。本专利技术提出的语义数据集可以利用大规模室内空间中存在的规律来开发联合跨模态学习模型和潜在的无监督方法；为语义、布局、遮挡、形状、模式检测等提供强有力的提示；不受规模、多样性和数量的限制。
技术实现思路
针对传统方法仅代表视觉信息而忽略语义信息的问题，本专利技术的目的在于提供一种基于二维-三维语义数据集的室内场景理解方法，先捕捉图像输出扫描区域，输...
一种<a href="http://www.xjishu.com/zhuanli/55/201710124139.html" title="一种基于二维‑三维语义数据集的室内场景理解方法原文来自X技术">基于二维‑三维语义数据集的室内场景理解方法</a>

【技术保护点】
一种基于二维‑三维语义数据集的室内场景理解方法，其特征在于，主要包括数据的收集和整理(一)；训练和测试分割(二)。

【技术特征摘要】
1.一种基于二维-三维语义数据集的室内场景理解方法，其特征在于，主要包括数据的收集和整理(一)；训练和测试分割(二)。2.基于权利要求书1所述的二维-三维语义数据集，其特征在于，收集的数据集是6个大型室内地区，来源于3个不同的建筑物，主要是教育和办公用途；对于每个区域，所有的方式在相同的参考系统注册，产生像素到像素之间的对应关系；该数据集包含总共约102000种普通RGB和1413张等量的RGB图像，以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据；此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。3.基于权利要求书1所述的数据的收集和整理(一)，其特征在于，使用相机收集数据，它结合了3个结构光传感器，在每个扫描位置旋转，360°捕获18种RGB和深度图像；输出扫描区域，原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格；使用这些数据作为基础生成额外的RGB-D数据，并通过对网格进行采样生成点云；直接在3D点云上对数据进行语义注释，然后将每个点标签投影在3D网格和图像域上；数据的收集和整理包括3D模式，2D形式和命名约定。4.基于权利要求书3所述的3D模式，其特征在于，该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域；包括三维点云和网格和3D语义；从相机得到重建的三维纹理的网格模型为每个扫描区域，每个模型包含200k个三角形面的平均值和材质映射到纹理图像，提供扫描空间的实际重建；产生的彩色3D点云密集和均匀采样点在网格表面上，并分配相应的颜色。5.基于权利要求书4所述的3D语义，其特征在于，语义上标注数据的3D点云，并指定以下13个对象类的每一个点：天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素；在3D进行注释，提供3D对象模型并且能够执行遮挡和模态分析，语义可以被投影到任何数量的图像上，在2D中提供标定好的真实数据；数据集中的每个对象实例都有唯一的标识符；将点云数据注释为房间，并为每个房间分配以下11个场景标签之一：办公室、会议室、走廊、礼堂、休息室、大堂、休息室、茶水间、复印室、存储室和厕所；同样，点云中的每个实例都会收到一个唯一的索引；给定这些注释，计算每个实例最紧密的轴对齐对象边界框，并进一步将其体素化为具有二进制占有的6×6×6网格；该信息提供对底层几何的更好理解，并且可以利用在3D对象检测或分类中；然后，在网格模型的面上投射对象和场景语义，并生成保留相同类结构和实例索引的3D语义网格；使用投射方案将这些注释转移到网格；每个注释点对与其...

【专利技术属性】
技术研发人员：夏春秋，
申请(专利权)人：深圳市唯特视科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人