一种无监督RGBD多模态数据集的构建方法、系统和存储介质技术方案

技术编号：38564519 阅读：36 留言：0更新日期：2023-08-22 21:03

本发明专利技术涉及计算机视觉技术领域，具体涉及一种无监督RGBD多模态数据集的构建方法、系统和存储介质，包括：采集待标注物体的RGB图像和深度图像；根据深度图像绘制深度图像折线图，并计算拐点坐标；将计算过拐点坐标与RGB图像输入神经网络，得到标注有待标注物体的边界的RGB图像标注文件和深度图像的标注文件，根据深度图像的标注文件构建数据集。本发明专利技术充分考虑到RGB图像和深度图像之间的不同，通过无监督方式自动生成RGBD多模态数据集，使用神经网络自动生成RGB图像边缘轮廓的标注信息，将标注结果迁移到深度图像，避免了直接标注深度图像时由于边缘模糊，噪声等导致的标注错误，同时大幅减少了标注的时间成本，效率极大提升。效率极大提升。效率极大提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种无监督RGBD多模态数据集的构建方法、系统和存储介质

[0001]本专利技术涉及计算机视觉
，具体涉及一种无监督RGBD多模态数据集的构建方法、系统和存储介质。

技术介绍

[0002]在计算机视觉领域，基于深度学习的目标检测和分割已经成为一个重要的研究方向。其中，融合RGBD多模态数据集由于可以提供更丰富的信息、增强对光照和纹理变化的鲁棒性、改善目标分割和识别的性能，以及处理遮挡物体和提供深度感知等优势，在计算机视觉各领域中具有广泛的应用前景。
[0003]目前，RGBD多模态数据集主要依赖人工对RGB图像和深度图像进行手动标注。深度图像中的物体轮廓和边界可能因为深度图像算法的限制而变得模糊不清。此外，深度图像中的深度值可能受到噪声和不一致性的影响，导致深度信息的完整性有所缺失。在标注RGBD多模态数据集时，标注者需要根据深度图像的可见部分进行推断，以获得完整图像，这些因素都增加了标注者对物体形状和边界的判断的难度，并严重影响了标注效率。
[0004]RGBD多模态数据集主要依赖人工对RGB图像和深...

【技术保护点】

【技术特征摘要】
1.一种无监督RGBD多模态数据集的构建方法，其特征在于，包括：采集待标注物体的RGB图像和深度图像；根据所述深度图像绘制待标注物体的深度图像折线图，所述折线图中包括多个拐点；从所述多个拐点中确定第一拐点和第二拐点，并计算所述第一拐点和第二拐点的坐标，所述第一拐点表示待标注物体的开始点，所述第二拐点表示待标注物体的结束点；基于所述第一拐点和第二拐点的坐标、以及所述RGB图像，通过预设的神经网络得到标注有待标注物体的边界的RGB图像标注文件；将所述RGB图像标注文件与深度图像对齐，利用所标注的边界生成所述深度图像的标注文件；根据所述深度图像的标注文件构建多模态数据集。2.根据权利要求1所述的无监督RGBD多模态数据集的构建方法，其特征在于，所述得到标注有待标注物体的边界的RGB图像标注文件包括：将第一拐点和第二拐点的坐标和RGB图像输入预设的神经网络，通过所述神经网络生成RGB图像中待标注物体的mask掩膜；将所述待标注物体的mask掩膜转换为待标注物体的边界；根据所述待标注物体的边界生成所述RGB图像的标注文件。3.根据权利要求1所述的无监督RGBD多模态数据集的构建方法，其特征在于，采集待标注物体的RGB图像和深度图像包括：采用双目结构光红外相机采集待标注物体的RGB图像和深度图像，所述采集的RGB图像和深度图像为相互对齐的图像。4.根据权利要求1所述的无监督RGBD多模态数据集的构建方法，其特征在于，根据所述深度图像绘制待标注物体的深度图像折线图，包括：选取所述RGB图像在X轴方向上的中线；依次获取所述中线上沿Y轴方向若干个采样点的深度坐标值，所述深度坐标值采用该采样点的Y轴坐标值和深度值表示；其中，所述X轴方向为RGB图像的水平方向，所述Y轴方向为RGB图像的垂直方向；建立深度值坐标系，将若干个采样点绘制于在所述深度值坐标系中，得到待标注物体的深度图像折线图；其中，所述深度值坐标系的横坐标为所述Y轴坐标，纵坐标为所述深度值坐标。5.根据权利要求1所述的无监督RGBD多模态数据集的构建方法，其特征在于，计算所述第一拐点和第二拐点的坐标，包括：；；其中为第一个估计的拐点，为第k+1个估计的拐点，上标 k...

【专利技术属性】
技术研发人员：吴波，郑随兵，
申请(专利权)人：睿尔曼智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人