当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于三维占用预测和神经渲染的视觉三维感知方法及系统技术方案

技术编号:39179123 阅读:10 留言:0更新日期:2023-10-27 08:26
本发明专利技术涉及一种基于三维占用预测和神经渲染的视觉三维感知方法及系统,包括:A、构建室内外场景数据集;B、训练基于空间注意力机制的卷积神经网络模型,生成三维占用预测结果;基于数据集训练设计好的基于空间注意力机制的卷积神经网络模型,图像帧作为卷积神经网络模型输入,激光雷达点云数据用于监督卷积神经网络模型的训练;输入待检测的图像帧,让训练好的基于空间注意力机制的卷积神经网络模型前向推理,生成三维占用预测结果。本发明专利技术能够实现只输入图像,模型就能感知周围环境信息的功能,而无需搭载价格高昂的激光雷达,大幅减少了成本。通过将三维占用预测技术和神经渲染结合起来,能够有效感知被遮挡区域的信息。能够有效感知被遮挡区域的信息。能够有效感知被遮挡区域的信息。

【技术实现步骤摘要】
一种基于三维占用预测和神经渲染的视觉三维感知方法及系统


[0001]本专利技术涉及一种基于三维占用预测和神经渲染的视觉三维感知方法及系统,属于计算机视觉


技术介绍

[0002]近年来机器人已经逐渐步入人们的生活,无论是扫地机器人、快递机器人,还是自动驾驶,都有着利用传感器准确、全面地感知周围的环境信息这一基础需求。基于激光雷达的方法虽然取得了不错的效果,但价格高昂,采集到的数据较为稀疏,限制了其环境感知能力。基于摄像头的视觉方案成本相对较低,有着大范围普及的潜力,具有十分重要的研究意义。
[0003]目前主要的视觉三维感知方法大致有三种,一种方法是三维物体检测,能够提供物体位置和大小的粗略估计,但是无法有效表示任意形状的物体以及视线被遮挡的区域。另一种方法是预测二维图像缺失的深度信息,然而只能捕捉距离最近的被占用点,无法感知被遮挡的区域。与上述方法不同,最近兴起的三维占用预测方法,将周围一定范围内的空间划分为一个个三维立方体网格,称之为体素,预测这些体素的占用信息,从而能够重建被遮挡区域,有效地提供周围的环境信息。
[0004]目前的三维占用预测方法主要都在室外数据集上训练和评估,然而室内场景也有相应的应用需求,并且对于提高模型的泛化能力至关重要。
[0005]神经渲染是一种利用神经网络技术实现场景渲染的方法。它利用神经网络来表示场景的形状和外观,与传统方法相比,提供了更高质量的渲染结果。
[0006]近年来,基于深度学习的三维占用预测技术发展迅速,将基于深度学习的三维占用预测技术和神经渲染结合起来应用到感知周围环境信息这一任务,将是一个新的研究课题。

技术实现思路

[0007]针对现有技术的不足,本专利技术旨在解决现有三维感知方法存在的成本高、无法感知被遮挡的区域、只适用于室外场景等问题,提供一种基于三维占用预测和神经渲染的视觉三维感知方法,将三维占用预测技术和神经渲染结合起来,感知周围环境信息。
[0008]基于摄像头的视觉三维感知方案成本低,有着大范围普及的潜力。为了解决目前视觉三维感知存在的问题,本专利技术构建了一个适用于三维感知任务的室内外场景数据集,通过将三维占用预测技术和神经渲染结合起来,以感知周围环境信息。无论是三维物体检测还是预测图像的深度信息,都无法感知被遮挡的区域,而三维占用预测技术能够有效地重建被遮挡区域的信息。单独使用三维占用预测技术效果不够显著,结合使用神经渲染能够更有效地感知周围环境信息。
[0009]本专利技术还提供了一种基于三维占用预测和神经渲染的视觉三维感知系统。
[0010]术语解释:
[0011]1、相机内参矩阵,其作用是将相机坐标系下的三维坐标映射到二维的图像平面,表示为其中f
x
和f
y
是相机的水平和垂直焦距,c
x
和c
y
是图像原点相对于相机光心的水平和垂直偏移量,以像素为单位。
[0012]2、相机外参矩阵,其作用是将世界坐标系下的点变换到相机坐标系,表示为其中R是3
×
3的旋转矩阵,它的第一列到第三列分别表示世界坐标系的X,Y,Z轴在相机坐标系下对应的方向;T是3
×
1的平移向量,表示世界坐标系原点在相机坐标系下对应的位置。
[0013]3、激光雷达点云数据,是由激光雷达扫描得到的空间点的数据集,每一个点都包含了三维坐标信息,有的还包含颜色信息、反射强度信息、回波次数信息等。
[0014]4、时间戳,是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。
[0015]5、ResNet,是一种卷积神经网络,有ResNet18、ResNet34、ResNet50、ResNet101和ResNet152五个版本,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,在计算机视觉领域常用于图像特征提取。
[0016]6、Deformable attention,是一种基于稀疏空间采样的注意力机制,每个参考点仅关注邻域的一组采样点,这些采样点的位置并非固定,而是可学习的,从而实现了一种局部且稀疏的高效注意力机制。
[0017]7、ROS,是一个适用于机器人开发的开源操作系统。
[0018]8、Autoware,是一款基于ROS系统的开源自动驾驶框架。
[0019]9、位置编码,是一种用来表示空间信息的方法,在计算机科学中,通常用于人工智能领域。位置编码将空间上的点映射为数字,便于计算机处理和分析。
[0020]本专利技术的技术方案如下:
[0021]一种基于三维占用预测和神经渲染的视觉三维感知方法,包括步骤如下:
[0022]A、构建室内外场景数据集
[0023](1)搭建数据采集的小车,小车前端并排放置两个摄像头,左侧和右侧以一定倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以一定高度放置一个激光雷达;
[0024](2)对步骤(1)中的摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵;
[0025](3)分别在室内和室外环境下,遥控着小车行驶,通过摄像头和激光雷达同时采集视频和激光雷达点云数据,视频以图像帧的形式存储,激光雷达点云数据以360
°
水平角为一个循环存储为一帧;
[0026](4)将图像帧及激光雷达点云数据按照时间戳顺序一一对应,构建数据集;
[0027]B、训练基于空间注意力机制的卷积神经网络模型,生成三维占用预测结果
[0028](5)基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模
型,图像帧作为基于空间注意力机制的卷积神经网络模型输入,激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练;
[0029](6)输入待检测的图像帧,让步骤(5)训练好的基于空间注意力机制的卷积神经网络模型前向推理,生成三维占用预测结果。
[0030]根据本专利技术优选的,步骤(1)中,所述小车为WHEELTEC阿克曼小车,所述摄像头为海康威视U64摄像头,所述激光雷达为镭神智能C16激光雷达,小车前端并排放置两个摄像头,左侧和右侧以40
°‑
60
°
倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以8cm

12cm高度放置一个激光雷达。
[0031]进一步优选的,左侧和右侧以50
°
倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以10cm高度放置一个激光雷达。
[0032]根据本专利技术优选的,步骤(2)中,对步骤(1)中的摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵,包括步骤如下:
[0033]a、将标定板放置在摄像头前方,在电脑的ROS环境下,分别对每个摄像头单独录制标定板移动的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,包括步骤如下:A、构建室内外场景数据集(1)搭建数据采集的小车,小车前端并排放置两个摄像头,左侧和右侧各放置两个摄像头,在前端两个摄像头的中间正后方位置放置一个激光雷达;(2)对步骤(1)中的摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵;(3)分别在室内和室外环境下,遥控着小车行驶,通过摄像头和激光雷达同时采集视频和激光雷达点云数据,视频以图像帧的形式存储,激光雷达点云数据以360
°
水平角为一个循环存储为一帧;(4)将图像帧及激光雷达点云数据按照时间戳顺序一一对应,构建数据集;B、训练基于空间注意力机制的卷积神经网络模型,生成三维占用预测结果(5)基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型,图像帧作为基于空间注意力机制的卷积神经网络模型输入,激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练;(6)输入待检测的图像帧,让步骤(5)训练好的基于空间注意力机制的卷积神经网络模型前向推理,生成三维占用预测结果。2.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(1)中,所述小车为WHEELTEC阿克曼小车,所述摄像头为海康威视U64摄像头,所述激光雷达为镭神智能C16激光雷达,小车前端并排放置两个摄像头,左侧和右侧以40
°‑
60
°
倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以8cm

12cm高度放置一个激光雷达;进一步优选的,左侧和右侧以50
°
倾角各放置两个摄像头,在前端两个摄像头的中间正后方位置以10cm高度放置一个激光雷达。3.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(2)中,对步骤(1)中的摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵,包括步骤如下:a、将标定板放置在摄像头前方,在电脑的ROS环境下,分别对每个摄像头单独录制标定板移动的视频,同时采集激光雷达点云数据;b、使用Autoware的标定工具包提取视频中包含标定板的图像帧,并标出对应的激光雷达点云数据,对摄像头和激光雷达进行联合标定,得到每个摄像头的内参矩阵和外参矩阵。4.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(4)中,将图像帧及激光雷达点云数据按照时间戳顺序一一对应,构建数据集,包括步骤如下:c、以右侧放置的摄像头的图像帧的时间戳为基准,将其它三个摄像头的图像帧及激光雷达点云数据与右侧放置的摄像头的图像帧按照时间戳顺序一一对应,构建数据集;d、将步骤c处理后的数据集分为训练集、验证集和测试集;进一步优选的,步骤d中,将步骤c处理后的数据集按照7:1:1的比例分为训练集、验证集和测试集。
5.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,基于空间注意力机制的卷积神经网络模型包括依次连接的基于ResNet的图像特征提取网络、基于Deformable attention的空间注意力模块、反卷积网络和预测网络;基于ResNet的图像特征提取网络包括依次连接的ResNet50和一个卷积层;所述ResNet50包括依次连接的卷积层、最大池化层、Bottleneck1模块和Bottleneck2模块;Bottleneck1模块和Bottleneck2模块均包括卷积层、Batch normalization层、ReLU层和残差连接,Bottleneck1模块先经过一个卷积层以增加输入通道维度,再进行残差连接;Bottleneck2模块直接进行残差连接;基于Deformable attention的空间注意力模块包括三个依次连接的Deformable attention模块、Layer normalization层和全连接层,具体包括:第一Deformable attention模块、第一Layer normalization层、第一全连接层、第二Layer normalization层,第二Deformable attention模块、第三Layer normalization层、第二全连接层、第四Layer normalization层,以及第三Deformable attention模块、第五Layer normalization层、第三全连接层、第六Layer normalization层;每个Deformable attention模块包括四个并行的Block模块,Block模块包括全连接层、Softmax层和聚合层;Block模块实现了单个图像特征的空间注意力机制,Deformable attention模块则聚合了来自四个不同图像特征的Block模块的输出特征。6.根据权利要求1所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,反卷积网络包括依次连接的第一3D反卷积层、第一3D Batch normalization层、第一LeakyReLU层、第二3D反卷积层、第二3D Batch normalization层、第二LeakyReLU层;进一步优选的,预测网络包括依次连接的第四全连接层、LeakyReLU层、第五全连接层、Softmax层。7.根据权利要求1

6任一所述的一种基于三维占用预测和神经渲染的视觉三维感知方法,其特征在于,步骤(5)中,基于步骤(4)的数据集训练设计好的基于空间注意力机制的卷积神经网络模型,图像帧作为基于空间注意力机制的卷积神经网络模型输入,激光雷达点云数据用于监督基于空间注意力机制的卷积神经网络模型的训练;包括步骤如下:e、一组通道维度为3、分辨率大小为(h,w)的图像帧分别输入到四个ResNet50中,通过ResNet50提取到通道维度为2048的图像特征,然后,经过卷积核大小为1
×
1的卷积层后得到通道维度为256的图像特征,其分辨率经过下采样32倍变为:h'=h/32,w'=w/32;(数值取整);f、将步骤e中从4张图像中提取到的图像特征在新增的第一个维度上拼接起来,然后叠加可学习的位置编码,使基于空间注意力机制的卷积神经网络模型能够区分来自不同位置摄像头的图像特征;g、预先定义一个可学习的query,其形状为:H'=H/4,W'=W/4,Z'=Z/4,256,与体素立方体特征的形状一致,将其与步骤f中叠加位置编码的图像特征一并输入到第一Deformable attention模块中;h、取索引为(x,y,z)处的query特征Q
p
,p=1,

,H'
×
W'
×
Z',将其索引转换成空间位置坐标q
p
=(x
w
,y
w
,z
w
),如式(I)所示:
式(I)中,X
max
、X
min
是体素立方体在世界坐标系x方向上的最大边界和最小边界,Y
max
、Y
min
是体素立方体在世界坐标系y方向上的最大边界和最小边界,Z
max
、Z
min
是体素立方体在世界坐标系z方向上的最大边界和最小边界;i、使用相机内参矩阵和外参矩阵将q
p
映射为来自第i个摄像头的图片像素坐标(x
i
,y
i
),如式(II)所示:式(II)中,K
i
是第i个摄像头的内参矩阵,是将3
×<...

【专利技术属性】
技术研发人员:周洪超郭盛邦吕传栋周斌
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1