一种基于视觉图像和点云的融合感知模型训练、稠密三维点云获取、建模方法及装置制造方法及图纸

技术编号:37842435 阅读:10 留言:0更新日期:2023-06-14 09:47
本发明专利技术公开了一种基于视觉图像和点云的融合感知模型训练方法及装置,包括如下步骤:搭建Transformer模型,所述Transformer模型包括依次串联的编码器、解码器和上采样层,编码器包括一定数量的特征提取层,特征提取层包含串联的多头自注意力模块和多层感知机模块,多头自注意力模块和多层感知机模块均前置连接LayerNorm层,后置连接残差连接;解码器包括一定数量的解码层,解码层包括串联的二维卷积模块和上采样模块;解码器的输出经过双线性插值的上采样层恢复为原来图像的大小,得到最终的稠密三维点云。本发明专利技术所公开的方法及装置,通过将视觉图像以及点云图像分别转换为对应的一维序列,根据一维序列生成样本,相对于现有技术中需要人工标记样本,避免了样本标记的工作量,进而可以更加高效率的生成训练样本,提高模型的训练效率。高模型的训练效率。高模型的训练效率。

【技术实现步骤摘要】
一种基于视觉图像和点云的融合感知模型训练、稠密三维点云获取、建模方法及装置


[0001]本专利技术属于图像处理
,特别涉及该领域中的一种基于视觉图像和点云的融合感知模型训练、稠密三维点云获取、建模方法及装置。

技术介绍

[0002]激光雷达和摄像机是计算机视觉领域最常用的传感器。激光雷达能够快速、精确地获取环境三维信息,但其获得的三维点云比较稀疏,并且只包含深度信息。而摄像机能够获得致密、丰富的信息,但很难获取视野中物体的深度信息。将二者进行数据融合,可得到较理想的三维重建结果,该过程即为传感器融合技术。利用多种具有互补特性的传感器来增强感知能力,降低成本,已成为一个新兴的研究课题。相机和激光雷达具有互补的特性,这使得融合模型比其他传感器融合配置更有效、更受欢迎。
[0003]现有技术中申请号为CN202010058810.8的专利技术专利申请公开了一种学习方法及学习装置以及利用其的测试方法及测试装置,在将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各自卷积步骤进行统合,包括:(a)步骤,计算装置使至少一个初始运算层,将借助于所述照相机而生成的至少一个原始图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个原始点云图进行统合,(i)将所述原始点云图包含的深度信息添加于所述原始图像,从而生成至少一个第一融合特征图,及(ii)将所述原始图像包含的颜色信息添加于所述原始点云图,从而生成至少一个第一融合点云图。其使用的是CNN卷积神经网络模型进行深度信息融合,过程为先将深度信息标记在二维图像中,然后使用二维图像训练CNN模型,然后再由CNN模型进行图像和点云的融合,其不足之处是CNN训练过程中需要人工进行深度信息标记,导致模型的训练效率较低。

技术实现思路

[0004]本专利技术所要解决的技术问题就是克服现有技术融合效率低的缺点,提供一种基于视觉图像和点云的融合感知模型训练、稠密三维点云获取、建模方法及装置,可以提高模型的训练效率。
[0005]本专利技术采用如下技术方案:
[0006]一种基于视觉图像和点云的融合感知模型训练方法,其改进之处在于,包括如下步骤:
[0007]搭建Transformer模型,所述Transformer模型包括依次串联的编码器、解码器和上采样层,编码器包括一定数量的特征提取层,特征提取层包含串联的多头自注意力模块和多层感知机模块,多头自注意力模块和多层感知机模块均前置连接LayerNorm层,后置连接残差连接;解码器包括一定数量的解码层,解码层包括串联的二维卷积模块和上采样模块;解码器的输出经过双线性插值的上采样层恢复为原来图像的大小,得到最终的稠密三
维点云;
[0008]将视觉图像以及点云图像分别转换为对应的一维序列,根据一维序列生成样本,利用样本组成的样本集训练所搭建的Transformer模型,直至模型收敛,得到融合感知模型。
[0009]进一步的,所述多层感知机模块由两个带有GELU的非线性层串联组成。
[0010]进一步的,在二维卷积模块和上采样模块之间设有BatchNorm层。
[0011]进一步的,所述视觉图像和点云图像为拍摄参数相同的数据,所述拍摄参数包括:拍摄方向和拍摄坐标。
[0012]进一步的,所述根据一维序列生成样本,包括:
[0013]将一维序列拼接,得到二维拼接结果,再将二维拼接结果裁剪为块,最后将每一个块映射到一维空间中;
[0014]将映射到一维空间后的块映射为D维的块嵌入信息,并为每一个块嵌入信息添加位置编码,得到样本。
[0015]一种基于视觉图像和点云的稠密三维点云获取方法,其改进之处在于:获取待融合的视觉图像和点云图像后,将之转换为待处理数据并输入到上述所得的融合感知模型中,得到待融合的视觉图像中各像素点的深度信息,根据各个像素点的深度信息,将各个像素点映射到点云空间中,得到稠密三维点云。
[0016]一种基于视觉图像和点云的建模方法,其改进之处在于:根据上述所得稠密三维点云中每一点的深度信息,提取出各点所处平面,对每一个平面进行二维扩张处理,得到候选平面;根据各个候选平面之间的几何关系获取由候选平面封闭的空间模型。
[0017]一种基于视觉图像和点云的融合感知模型训练装置,供上述训练方法使用,其改进之处在于,所述装置包括:
[0018]模型构建模块,用于搭建Transformer模型,所述Transformer模型包括依次串联的编码器、解码器和上采样层,编码器包括一定数量的特征提取层,特征提取层包含串联的多头自注意力模块和多层感知机模块,多头自注意力模块和多层感知机模块均前置连接LayerNorm层,后置连接残差连接;解码器包括一定数量的解码层,解码层包括串联的二维卷积模块和上采样模块;解码器的输出经过双线性插值的上采样层恢复为原来图像的大小,得到最终的稠密三维点云;
[0019]样本生成与模型训练模块,用于将视觉图像以及点云图像分别转换为对应的一维序列,根据一维序列生成样本,利用样本组成的样本集训练所搭建的Transformer模型,直至模型收敛,得到融合感知模型。
[0020]一种基于视觉图像和点云的稠密三维点云获取装置,其改进之处在于,所述装置包括:
[0021]获取模块,用于获取待融合的视觉图像和点云图像后,将之转换为待处理数据并输入到上述所得的融合感知模型中,得到待融合的视觉图像中各像素点的深度信息;
[0022]映射模块,用于根据各个像素点的深度信息,将各个像素点映射到点云空间中,得到稠密三维点云。
[0023]一种基于视觉图像和点云的建模装置,其改进之处在于,所述装置包括:
[0024]提取模块,用于根据上述所得稠密三维点云中每一点的深度信息,提取出各点所
处平面;
[0025]扩张模块,用于对每一个平面进行二维扩张处理,得到候选平面;
[0026]建模模块,用于根据各个候选平面之间的几何关系获取由候选平面封闭的空间模型。
[0027]本专利技术的有益效果是:
[0028]本专利技术所公开的方法及装置,通过将视觉图像以及点云图像分别转换为对应的一维序列,根据一维序列生成样本,相对于现有技术中需要人工标记样本,避免了样本标记的工作量,进而可以更加高效率的生成训练样本,提高模型的训练效率。
附图说明
[0029]图1是本专利技术所公开训练方法的流程示意图;
[0030]图2是本专利技术所公开训练方法中Transformer模型的结构示意图;
[0031]图3是本专利技术所公开训练方法中用于生成样本的点云图像示意图;
[0032]图4是本专利技术所公开建模方法的原理示意图;
[0033]图5是本专利技术所公开建模方法的结果示意图。
具体实施方式
[0034]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉图像和点云的融合感知模型训练方法,其特征在于,包括如下步骤:搭建Transformer模型,所述Transformer模型包括依次串联的编码器、解码器和上采样层,编码器包括一定数量的特征提取层,特征提取层包含串联的多头自注意力模块和多层感知机模块,多头自注意力模块和多层感知机模块均前置连接LayerNorm层,后置连接残差连接;解码器包括一定数量的解码层,解码层包括串联的二维卷积模块和上采样模块;解码器的输出经过双线性插值的上采样层恢复为原来图像的大小,得到最终的稠密三维点云;将视觉图像以及点云图像分别转换为对应的一维序列,根据一维序列生成样本,利用样本组成的样本集训练所搭建的Transformer模型,直至模型收敛,得到融合感知模型。2.根据权利要求1所述基于视觉图像和点云的融合感知模型训练方法,其特征在于,所述多层感知机模块由两个带有GELU的非线性层串联组成。3.根据权利要求1所述基于视觉图像和点云的融合感知模型训练方法,其特征在于,在二维卷积模块和上采样模块之间设有BatchNorm层。4.根据权利要求1所述基于视觉图像和点云的融合感知模型训练方法,其特征在于,所述视觉图像和点云图像为拍摄参数相同的数据,所述拍摄参数包括:拍摄方向和拍摄坐标。5.根据权利要求1所述基于视觉图像和点云的融合感知模型训练方法,其特征在于,所述根据一维序列生成样本,包括:将一维序列拼接,得到二维拼接结果,再将二维拼接结果裁剪为块,最后将每一个块映射到一维空间中;将映射到一维空间后的块映射为D维的块嵌入信息,并为每一个块嵌入信息添加位置编码,得到样本。6.一种基于视觉图像和点云的稠密三维点云获取方法,其特征在于:获取待融合的视觉图像和点云图像后,将之转换为待处理数据并输入到上述权利要求1至5任一项所得的融合感知模型中,得到待融合的视觉图像中各像素点的深度信息, 根据各个像素点的深度信息,将各个像素点映射到点云空间中,得到稠...

【专利技术属性】
技术研发人员:左伟庆程尧张富彬夏国臻赵军冯阳郭琛
申请(专利权)人:中国电波传播研究所中国电子科技集团公司第二十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1