基于动静态卷积融合神经网络的多视图三维点云分类方法技术

技术编号:34792749 阅读:33 留言:0更新日期:2022-09-03 19:56
本发明专利技术提供一种基于动静态卷积融合神经网络的多视图三维点云分类方法,使用固定加随机视点的视图选取方法,有效避免了传统固定视点选取所造成的过拟合现象;为了提高算法在不同数据集上的自适应性,用了动态静态卷积自适应权重融合的局部特征提取算子,特别针对当前动态卷积存在的参数量巨大,计算复杂度高的问题,提出了一种轻量化自适应动态卷积算子;此外,使用了全局注意力的池化方法,也能够最大程度地整合不同视图上的最关键信息。这些特性使得本发明专利技术的方法总体泛化性能更好,具有更好的自适应性,能够提取到更加细粒度的细节信息,进一步提高了点云数据的分类精度,且融合效率高。效率高。效率高。

【技术实现步骤摘要】
基于动静态卷积融合神经网络的多视图三维点云分类方法


[0001]本专利技术属于三维点云分类
,具体涉及一种基于动静态卷积融合神经网络的多视图三维点云分类方法。

技术介绍

[0002]近年来,随着人工智能和深度学习技术的飞速发展,三维感知和理解领域取得了突破性进展。而点云作为三维感知和理解的重要表现形式,其包含了更加丰富的几何形状和结构信息。三维点云主要是通过激光雷达、RGB

D相机以及其他传感器设备采集得到,其广泛应用城市环境的监测、城市形态的分析、道路自动驾驶、计算机视觉、机器人研发和逆向工程建模等诸多领域。与三维点云相关的研究领域又包括基于点云的分类、目标检测、分割、配准、去噪等等,而这其中三维点云的分类是最基础且重要的环节之一,因此对于点云的分类研究,特别是如何提高点云分类的准确度和效率成为相关学界广泛关注的热点。
[0003]当下对三维点云的分类方法主要包括基于体素、基于直接点云和基于多视图的方法,这三种方法又各自受到了大量学者的关注与研究。以下将对现有技术中的这三种方法及其问题、不足进行简要说明。
[0004]一、基于体素的三维点云分类
[0005]体素即体积像素,其用恒定的标量或者向量表示一个立体的区域,由于体素可以用可简化的、离散的单元如粒子来表示复杂的对象,所以它们在模拟真实世界中复杂对象的行为方面具有十分强大的功能,并且体素本身的结构表示也较为简单。Victoria Plaza等人提出了基于体素的自然环境三维点云数据分类方法,该模型利用多层感知机对内点的空间分布进行统计几何分析,对体素进行分类,点周围的局部空间分布特征由点位置协方差矩阵的主成分定义。体素和神经网络的结合比其他策略达到了更快的计算速度,但是并没有改变体素本身计算量大和耗时的本质缺点。Zhijian Liu等人提出了Point

Voxel的卷积神经网络模型,其将一个物体的整体结构和细节用两个模块来捕捉,整合了基于点云和网格的优点,拥有较其他体素模型而言较小的数据开销和较好的数据规整度,内存消耗也更低。该算法的分类精度好于当下各种基于体素的分类模型,但是其并未突破基于体素卷积的低效和基于体素和基于点云结构的刻板印象。Victoria Plaza

leiva等人提出了一种基于体素邻域的新的通用框架,用于实现和比较不同的监督学习分类器,该框架采用简单的基于体素本身定义的支持区域内特征,将规则网格中每个不重叠的体素中的点分配给同一类,有效地提高了3维空间形状特征分类的有效性,缩短了处理时间,易于并行化处理,但是其只是进行了初步实验,后续缺乏使用不同性能指标、环境、传感器等做深入的分析。Zishu Liu等人提出了一种基于体素的广义学习网络VB

Net,并使用该模型来进行3D对象的分类。通过将原始点云转化为体素,再利用VB

Net作为特征提取器,从体素中提取特征,并将特征用于广义学习系统(BLS)的目标分类,显著地减少了系统训练消耗的时间,但模型分类的准确性还有待提高,尤其是随着三维物体分辨率的提高,分类精确度急剧下降。Kazuma Hamada等人考虑了体素密度沿深度方向的变化,进而提出了一种新的三投影体素
展开的三维场景分类方法。该方法根据位置和大小规范化3D场景,将3D场景投影到三个垂直平面上。通过合并三幅图像,应用深度学习预测每个场景的类别,其分类的准确性有很大的提高。但是由于三投影体素展开需要标准化来使得每个3D场景适合于一个体素,如果3D场景足够大,Tri

projection Voxel Splatting(TVS)可能无法识别微小的对象。Cheng Wang等人提出了一种基于体素的卷积神经网络NormalNet,使用一个反射卷积串联(RCC)模块实现卷积层,来为3D视觉任务提取可分辨特征,从而显著减少了参数数目和整个网络的性能。但是该方法并没有在关键模块RCC中找到最佳反射数,因而模型拥有进一步的优化空间。Hui Cao等人调查了二进制体素不适合三维卷积表征的原因,通过给每个体素指定距离值提高了约30%的准确度,并且设计了一个快速全连接和卷积混合级联网络用于三维对象的分类。其平均的推理时间快于基于点云和体素的方法,准确率也更高,但其使用的深层网络对于一部分困难样本的识别率却不如浅层网络。
[0006]基于体素的方式进行三维物体的分类,其最大的缺点就是存储代价太高。同时,将一幅用体素表示的庞大复杂的三维图像直接送入三维卷积中处理势必需要很大的计算代价,耗费大量计算时间。如果通过降低三维图像分辨率的方式来解决此类问题,又会造成最终训练出的模型精度的降低。
[0007]二、基于点云的直接处理分类
[0008]点云是由给定坐标系统定义的数据点的集合,每个点包含了丰富的信息,包括三维坐标X、Y、Z以及颜色、分类值、强度、时间等等,其具有无序性、稀疏性、旋转和平移的不变性等特点。相较于体素的方式,基于点云的直接处理方法无需进行额外的模型转换,直接将原始点云作为处理对象,其能够减少了大量的存储开销。Charles R.Qi等人设计了一种新的直接训练点云的神经网络PointNet,其使用了一个学习到的T

Net转换矩阵来保证模型对特定空间转换的不变性.通过多层感知机(Multi

Layer Perceptron,mlp)对各点云数据进行特征提取,在特征的各个维度上执行最大池化操作来得到最终全局特征,并依靠mlp来进行3d物体的分类操作。由于直接对点云操作而不需要复杂的预处理,因此网络模型十分高效,且抗扰动。但局部点与点之间的联系并没有被网络学习到,缺失了对于局部特征上信息的捕获。Zhongyang Zhao等人提出了一种结合多尺度特征和PointNet的深度神经网络,其利用多尺度提取点的邻域特征,然后与PointNet提取的全局特征相结合,完成对激光雷达点云的分类,其达到了比较好的分类效果,但需要进一步改进在提取局部特征时效率很低这一缺点。Zhuangzhuang Li等人基于PointNet提出了两种提高三维分类模型精度的方法,通过增加隐藏层的数量来获取更多的抽象特征,以及将softmax损失函数与中心损失函数相结合来获得判别特征,从而让改进后的模型比原始的PointNet具有更好的性能。但针对是否可以使用更加轻量化的网络或者深层卷积网络来对模型进一步优化,以及调整相关参数的范围从而增强目标的判别力等方面并未进行细致地探究。KuangEn Zhang等人针对一维信号和二维图像对环境进行分类可能面临的遮挡问题,提出了一种定向PointNet来直接对三维点云进行分类,其利用了点云的方向信息,可以对各种不同地形进行分类,从而帮助可穿戴机器人对象在复杂环境中行走,达到对环境进行鲁棒高效的分类,但是模型的高分类精度仅仅局限于特定应用领域。针对PointNet网络所存的问题,即不能捕捉到由度量空间点所产生的局部结构,从而限制了它识别细粒度模式的能力和对复杂场景的泛化能力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动静态卷积融合神经网络的多视图三维点云分类方法,其特征在于,包括如下步骤:步骤S1,通过FSDC

Net的多视图选取部分将输入的三维点云投影变换为多视图表征;步骤S2,通过所述FSDC

Net的局部特征处理部分提取所述多视图表征的局部特征;步骤S3,通过所述FSDC

Net的全局特征融合部分将所述局部特征融合为全局特征;步骤S4,所述FSDC

Net基于所述全局特征对所述三维点云进行分类,其中,步骤S1包括如下子步骤:步骤S1

1,对所述三维点云的各个点的位置信息进行归一化;步骤S1

2,选取固定视点,并基于该固定视点对归一化后的所述三维点云进行投影,得到固定视图集;步骤S1

3,选取随机视点,并基于该随机视点对归一化后的所述三维点云进行投影,得到随机视图集;步骤S1

4,按预定比例分别从所述固定视图集和所述随机视图集中选取部分视图,并将其组合成多视图初始阶段的表征,即所述多视图表征,步骤S2包括如下子步骤:步骤S2

1,将每个所述视图进行卷积和最大池化;步骤S2

2,将每个所述视图串行地经过所述FSDC

Net中的多个FSDC层,其中,每个所述FSDC层对输入特征并行地应用静态卷积和轻量化动态卷积分别生成算子并分别提取特征,再通过两个可学习权重自适应地融合两个分支提取的特征,进而通过激活层得到输出特征作为所述局部特征,其中,用于进行所述轻量化动态卷积的动态卷积核通过以下子步骤得到:步骤S2
‑2‑
1,通过BatchPool函数对所述输入特征在Batch维度进行融合,从而达到轻量化的效果,如下式:式中,X
i
,Z1分别表示BatchPool前后的输入和输出特征,X
i
(j,c,h,w)表示输入的某一幅图像,b表示BatchSize的大小,c,h,w分别表示输入特征在通道、高度、宽度方向的集合;步骤S2
‑2‑
2,分别采用不同尺寸的卷积矩阵从不同感受野上对原始输入特征进行卷积操作,从而提取不同感受野上的信息;步骤S2
‑2‑
3,融合不同感受野上提取到的所述信息;步骤S2
‑2‑
4,通过Dropout层使所述FSDC层中的神经元按预定比例随机失活,从而避免过拟合问题;步骤S2
‑2‑
5,对每个所述FSDC层,通过卷积将原始动态权重改变至预定的通道数,并通过激活函数Sigmoid获得概率值作为所述FSDC层的动态权重,从而得到多个所述FSDC层的动态权重集合;步骤S2
‑2‑
6,将原始的多组卷积核与所述动态权重集合进行乘加,生成最终的所述动态卷积核。2.根据权利要求1所述的基于动静态卷积融合神经网络的多视图三维点云分类方法,其特征在于:
其中,步骤S3包括如下子步骤:步骤S3
‑<...

【专利技术属性】
技术研发人员:周浩然王文举陈罡王晓琳
申请(专利权)人:上海理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1