9自由度RGBD数据集的构建方法技术

技术编号:36783692 阅读:45 留言:0更新日期:2023-03-08 22:22
本发明专利技术公开了一种9自由度RGBD数据集的构建方法,实现数据集的快速标注及构建,包括以下步骤:RGBD相机选型;布置室内场景并通过相机采集RGBD序列;通过位姿估计算法获取RGBD序列中每一帧图像的实时相机位姿;使用基于自编码器的9自由度半自动标注方法对任意一帧图像中的物体进行标注;根据已标注物体9自由度位姿及已获取的RGBD序列实时相机位姿,计算得到该RGBD序列中所有数据帧的物体标注信息,并保存为9自由度RGBD数据集。本发明专利技术使用位姿估计算法计算RGBD序列的实时相机位姿,并使用基于自编码器的半自动标注方法对数据帧进行标注,提升了数据采集、数据标注的效率和精度,实现数据集的快速构建。数据集的快速构建。数据集的快速构建。

【技术实现步骤摘要】
9自由度RGBD数据集的构建方法


[0001]本专利技术涉及图像数据采集及处理
,具体涉及一种9自由度RGBD数据集的构建方法。

技术介绍

[0002]9自由度物体检测及姿态估计任务在虚拟现实、增强现实或机器臂抓取等领域中具有极其重要的作用。然而,目前该领域缺乏大规模、包含物体9自由度标注信息的真实数据集,这极大地限制了相关算法的进一步研究,因此,进行9自由度RGBD数据集的构建极其重要。
[0003]大规模9自由度RGBD数据集的构建方法复杂,涉及相机选型、数据处理及数据标注等诸多步骤。9自由度RGBD数据集构建的技术难点在于对采集到的大量RGBD序列进行快速标注。现有方法通过人工标注图像中物体2D

3D点的方式计算物体9自由度信息,标注速度和精度较低。同时,通过在场景中放置标记板的方式实现相机定位,使得采集效率较低。

技术实现思路

[0004]本专利技术的目的是为了满足3D计算机视觉算法研究对大规模RGBD真实数据集的需求,提供一种9自由度RGBD数据集的构建方法,克服规模RGBD数据集标注困难、效率低下等技术难点,实现9自由度RGBD数据集的快速构建。
[0005]本专利技术的目的可以通过采取如下技术方案达到:
[0006]一种9自由度RGBD数据集的构建方法,所述构建方法包括以下步骤:
[0007]S1、进行RGBD相机选型;
[0008]S2、布置室内场景并通过RGBD相机采集RGBD序列;
[0009]S3、通过位姿估计算法获取RGBD序列中每一帧图像的实时相机位姿;
[0010]S4、使用基于自编码器的9自由度半自动标注方法对任意一帧图像中的物体进行标注;
[0011]S5、根据已标注物体位姿及已获取的RGBD序列实时相机位姿,计算得到该RGBD序列中所有帧的标注信息,并保存为9自由度RGBD数据集。
[0012]进一步地,所述RGBD相机用于采集真实世界中的彩色图像RGB及该彩色图像RGB对应的深度图像D,其中,
[0013]所述彩色图像RGB是通过对红、绿、蓝三个颜色通道的变化及相互之间的叠加得到的数字图像,由二维像素网格组成,彩色图像RGB的二维像素网格中每一个像素值代表该点所对应的三维空间点的颜色;彩色图像RGB刻画了真实世界中物体的外观及形状,包含丰富的纹理信息,是一种便于神经网络识别或理解真实世界的数字信号;
[0014]所述深度图像D是单通道的,与彩色图像RGB分辨率一致,并且与彩色图像RGB的二维像素网格一一对应,深度图像D的二维像素网格中每一个像素值代表该点所对应的三维空间中点的深度值,以mm为单位。深度图像的精度指相机输出的深度值与实际深度值的一
致程度。它与所选相机有关,通常精度越高,则成本越高。深度图像D可转换为3D场景点云,记录了真实世界中物体点的具体位置,是神经网络完成3D场景理解任务的常用信号;
[0015]进一步地,所述RGBD序列包含不同时刻下RGBD相机所采集到的数据帧,每一数据帧中记录物体了物体在不同视角下的外观、朝向及相互遮挡程度。神经网络算法在训练时从数据集中进行参数学习,获得特定的语义信息,完成对应的任务。RGBD序列包含的视角越丰富,包含的物体信息越多,有利于神经网络算法学习得到更加鲁棒的模型。
[0016]进一步地,所述9自由度指在三维空间中物体相对于相机基准坐标系的3D位置(x,y,z)、3D朝向(θ,α,β)及3D大小(l、w、h)组成的9维信息,该9维信息在三维空间中等价于一个紧凑的物体包围框,其中,3D位置(x,y,z)表示为3维向量T,3D朝向表示为旋转矩阵R3×3,3D大小表示为3维的向量S;由于采集过程中,相机朝向及位置不断移动,在不同时刻所采集到RGBD数据帧中,物体的9自由度信息随之变化。在3D场景理解任务中(例如自动驾驶),算法输入为场景RGBD信息,输出为场景中物体的9自由度信息,该信息有利于定位、避障、路径规划等下游任务。
[0017]进一步地,所述相机位姿指在三维空间中,当RGBD相机的朝向或/和位置移动时,RGBD相机相对于初始位姿的变换关系,由3D位置(x,y,z)、3D朝向(θ,α,β)两部分组成,其中,所述位姿估计算法采用ORBSLAM2[Mur

Artal R,et.al.Orb

slam2:An open

source slam system for monocular,stereo,and rgb

d cameras[J].IEEE transactions on robotics]算法,将RGBD序列作为输入,计算输出该RGBD序列中每一帧图像的实时相机位姿(T
c
,R
c
);当已知物体在第n帧的9自由度标注信息(T
n
,R
n
,S
n
)、第n帧的相机位姿(T
cn
,R
cn
)及第m帧的相机位姿(T
cm
,R
cm
)时,通过转换计算得到第m帧中物体的9自由度标注信息(T
m
,R
m
,S
m
)。结合ORBSLAM2获取RGBD序列的每一帧图像的实时相机位姿及物体在第n帧的9自由度标注信息,可实现RGBD序列的快速标注,使得标注者只需对RGBD序列中的任意一帧图像进行标注,即可通过计算获得该RGBD序列中所有数据帧的9自由度标注信息,无需对每一帧都进行手动标注。
[0018]进一步地,所述基于自编码器的9自由度半自动标注方法过程如下:
[0019]首先读取RGBD序列并使用可视化工具包Rviz(ROS[Quigley M,et al.ROS:an open

source Robot Operating System[C]//ICRA workshop on open source software.]中的可视化工具包)进行可视化,通过在可视化工具包Rviz中添加标注框、调节标注框位置、朝向及大小的方式对物体进行标注,其中,所述基于自编码器的9自由度半自动标注方法包括自编码器F(x),自编码器F(x)采用神经网络结构,经过训练后将物体点x作为输入复制到输出y,即y=F(x)=x,在标注过程中,当标注框已经包围住物体时,对物体点x进行提取并输入到经过训练的自编码器F(x)中,并输出完整物体点云y。在数据采集时,相机从单一视角观测物体,物体点是不完整的,有噪声的;这使得标注者进行物体标注时,标注框的调整不明确,可能出现9自由度标注信息不精准的现象;本专利技术首先使用shapenet(Angel X.Chang,et.al.Shapenet:An information

rich 3d model repository,2015)数据集中的完整物体点云数据训练一个自编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种9自由度RGBD数据集的构建方法,其特征在于,所述构建方法包括以下步骤:S1、进行RGBD相机选型;S2、布置室内场景并通过RGBD相机采集RGBD序列;S3、通过位姿估计算法获取RGBD序列中每一帧图像的实时相机位姿;S4、使用基于自编码器的9自由度半自动标注方法对任意一帧图像中的物体进行标注;S5、根据已标注物体位姿及已获取的RGBD序列实时相机位姿,计算得到该RGBD序列中所有数据帧的标注信息,并保存为9自由度RGBD数据集。2.根据权利要求1所述的9自由度RGBD数据集构建方法,其特征在于,所述RGBD相机用于采集真实世界中的彩色图像RGB及该彩色图像RGB对应的深度图像D,其中,所述彩色图像RGB是通过对红、绿、蓝三个颜色通道的变化及相互之间的叠加得到的数字图像,由二维像素网格组成,彩色图像RGB的二维像素网格中每一个像素值代表所对应的三维空间点的颜色;所述深度图像D是单通道的,与彩色图像RGB分辨率一致,并且与彩色图像RGB的二维像素网格一一对应,深度图像D的二维像素网格中每一个像素值代表所对应的三维空间中点的深度值,以mm为单位。3.根据权利要求1所述的9自由度RGBD数据集构建方法,其特征在于,所述RGBD序列包含不同时刻下RGBD相机所采集到的数据帧,每一数据帧中记录物体的不同外观、朝向及相互遮挡情况。4.根据权利要求1所述的9自由度RGBD数据集构建方法,其特征在于,所述9自由度指在三维空间中物体相对于相机基准坐标系的3D位置(x,y,z)、3D朝向(θ,α,β)及3D大小(l、w、h)组成的9维信息,该9维信息在三维空间中等价于一个紧凑的物体包围框,其中,3D位置(x,y,z)表示为3维向量T,3D朝向表示为旋转矩阵R3×3,3D大小表示为3维向量S。5.根据权利要求1所述的9自由度RGBD数据集构建方法,其特征在于,所述相机位姿指在三维空间中,当RGBD相机的朝向或/和位置移动时,RGBD相机相对于初始位姿的变换关系,由3D位置(x,y,z)[表示为3维向量T
c
]、3D朝向(θ,α,β)[表示为旋转矩阵R
c
]两部分组成,其中,所述位姿估计算法采用ORBSLAM2算法,将RGBD序列作为输入,计算输出该RGBD序列中每一帧图像的实时相机位姿;当已知物体在第n帧的9自由度标注信息(T
n
,R
n
,S
n
)、第n帧的相机位姿(T
cn
,R
cn
)及第m帧的相机位姿(T
cm
,R
cm
)时,通过转换计算得到第m帧中物体的9自由度标注信息(T
m
,R
m
,S
m
)。6.根据权利要求1所述的9自由度RGBD数据集构建方法,其特征在于,所述基于自编码器的9自由度半自动标注方法的过程如下:首先读取RGBD序列并使用可视化工具包Rviz进行可视化,通过在可视化工具包Rviz中添加标注框、调节标注框位置、朝向及大小的方式对物体进行标注,其中,所述基于自编码器的9自由度半自动标注方法包括自编码器F(x),自编码器F(x)采用神经网络结构,经过训练后将物体点x作为输入复制到输出y,即y=F(x)=x,在标注过程中,当标注框已经包围住物体时,对物体点x进...

【专利技术属性】
技术研发人员:魏泽伟陈轲
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1