【技术实现步骤摘要】
一种基于三维占用预测和神经渲染的视觉三维感知方法及系统
[0001]本专利技术涉及一种基于三维占用预测和神经渲染的视觉三维感知方法及系统,属于计算机视觉
技术介绍
[0002]近年来机器人已经逐渐步入人们的生活,无论是扫地机器人、快递机器人,还是自动驾驶,都有着利用传感器准确、全面地感知周围的环境信息这一基础需求。基于激光雷达的方法虽然取得了不错的效果,但价格高昂,采集到的数据较为稀疏,限制了其环境感知能力。基于摄像头的视觉方案成本相对较低,有着大范围普及的潜力,具有十分重要的研究意义。
[0003]目前主要的视觉三维感知方法大致有三种,一种方法是三维物体检测,能够提供物体位置和大小的粗略估计,但是无法有效表示任意形状的物体以及视线被遮挡的区域。另一种方法是预测二维图像缺失的深度信息,然而只能捕捉距离最近的被占用点,无法感知被遮挡的区域。与上述方法不同,最近兴起的三维占用预测方法,将周围一定范围内的空间划分为一个个三维立方体网格,称之为体素,预测这些体素的占用信息,从而能够重建被遮挡区域,有效地提供周围的环境信息。
[0004]目前的三维占用预测方法主要都在室外数据集上训练和评估,然而室内场景也有相应的应用需求,并且对于提高模型的泛化能力至关重要。
[0005]神经渲染是一种利用神经网络技术实现场景渲染的方法。它利用神经网络来表示场景的形状和外观,与传统方法相比,提供了更高质量的渲染结果。
[0006]近年来,基于深度学习的三维占用预测技术发展迅速,将基于深度学习的三维占用预 ...
【技术保护点】
【技术特征摘要】
1.一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,包括步骤如下:A、构建室内外场景数据集(1)搭建数据采集的小车,小车前端并排放置两个摄像头,左侧和右侧各放置两个摄像头,在前端两个摄像头的中间正后方位置放置一个激光雷达;(2)对步骤(1)中的摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵;(3)分别在室内和室外环境下,遥控着小车行驶,通过摄像头和激光雷达同时采集视频和激光雷达点云数据,视频以图像帧的形式存储,激光雷达点云数据以360
°
水平角为一个循环存储为一帧;(4)将图像帧及激光雷达点云数据按照时间戳顺序一一对应,构建数据集;B、训练基于空间注意力机制的卷积神经网络模型,生成三维占用预测结果(5)基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型,图像帧作为基于空间注意力机制的卷积神经网络模型输入,激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练;(6)输入待检测的图像帧,让步骤(5)训练好的基于空间注意力机制的卷积神经网络模型前向推理,生成三维占用预测结果。2.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(1)中,所述小车为WHEELTEC阿克曼小车,所述摄像头为海康威视U64摄像头,所述激光雷达为镭神智能C16激光雷达,小车前端并排放置两个摄像头,左侧和右侧以40
°‑
60
°
倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以8cm
‑
12cm高度放置一个激光雷达;进一步优选的,左侧和右侧以50
°
倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以10cm高度放置一个激光雷达。3.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(2)中,对步骤(1)中的摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵,包括步骤如下:a、将标定板放置在摄像头前方,在电脑的ROS环境下,分别对每个摄像头单独录制标定板移动的视频,同时采集激光雷达点云数据;b、使用Autoware的标定工具包提取视频中包含标定板的图像帧,并标出对应的激光雷达点云数据,对摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵。4.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(4)中,将图像帧及激光雷达点云数据按照时间戳顺序一一对应,构建数据集,包括步骤如下:c、以右侧放置的摄像头的图像帧的时间戳为基准,将其它三个摄像头的图像帧及激光雷达点云数据与右侧放置的摄像头的图像帧按照时间戳顺序一一对应,构建数据集;d、将步骤c处理后的数据集分为训练集、验证集和测试集;进一步优选的,步骤d中,将步骤c处理后的数据集按照7:1:1的比例分为训练集、验证集和测试集。
5.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,基于空间注意力机制的卷积神经网络模型包括依次连接的基于ResNet的图像特征提取网络、基于Deformable attention的空间注意力模块、反卷积网络和预测网络;基于ResNet的图像特征提取网络包括依次连接的ResNet50和一个卷积层;所述ResNet50包括依次连接的卷积层、最大池化层、Bottleneck1模块和Bottleneck2模块;Bottleneck1模块和Bottleneck2模块均包括卷积层、Batch normalization层、ReLU层和残差连接,Bottleneck1模块先经过一个卷积层以增加输入通道维度,再进行残差连接;Bottleneck2模块直接进行残差连接;基于Deformable attention的空间注意力模块包括三个依次连接的Deformable attention模块、Layer normalization层和全连接层,具体包括:第一Deformable attention模块、第一Layer normalization层、第一全连接层、第二Layer normalization层,第二Deformable attention模块、第三Layer normalization层、第二全连接层、第四Layer normalization层,以及第三Deformable attention模块、第五Layer normalization层、第三全连接层、第六Layer normalization层;每个Deformable attention模块包括四个并行的Block模块,Block模块包括全连接层、Softmax层和聚合层;Block模块实现了单个图像特征的空间注意力机制,Deformable attention模块则聚合了来自四个不同图像特征的Block模块的输出特征。6.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,反卷积网络包括依次连接的第一3D反卷积层、第一3D Batch normalization层、第一LeakyReLU层、第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层;进一步优选的,预测网络包括依次连接的第四全连接层、LeakyReLU层、第五全连接层、Softmax层。7.根据权利要求1
‑
6任一所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(5)中,基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型,图像帧作为基于空间注意力机制的卷积神经网络模型输入,激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练;包括步骤如下:e、一组通道维度为3、分辨率大小为(h,w)的图像帧分别输入到四个ResNet50中,通过ResNet50提取到通道维度为2048的图像特征,然后,经过卷积核大小为1
×
1的卷积层后得到通道维度为256的图像特征,其分辨率经过下采样32倍变为:h'=h/32,w'=w/32;(数值取整);f、将步骤e中从4张图像中提取到的图像特征在新增的第一个维度上拼接起来,然后叠加可学习的位置编码,使基于空间注意力机制的卷积神经网络模型能够区分来自不同位置摄像头的图像特征;g、预先定义一个可学习的query,其形状为:H'=H/4,W'=W/4,Z'=Z/4,256,与体素立方体特征的形状一致,将其与步骤f中叠加位置编码的图像特征一并输入到第一Deformable attention模块中;h、取索引为(x,y,z)处的query特征Q
p
,p=1,
…
,H'
×
W'
×
Z',将其索引转换成空间位置坐标q
p
=(x
w
,y
w
,z
w
),如式(I)所示:
式(I)中,X
max
、X
min
是体素立方体在世界坐标系x方向上的最大边界和最小边界,Y
max
、Y
min
是体素立方体在世界坐标系y方向上的最大边界和最小边界,Z
max
、Z
min
是体素立方体在世界坐标系z方向上的最大边界和最小边界;i、使用相机内参矩阵和外参矩阵将q
p
映射为来自第i个摄像头的图片像素坐标(x
i
,y
i
),如式(II)所示:式(II)中,K
i
是第i个摄像头的内参矩阵,是将3
×<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。