一种基于PointCloudTransformer的多尺度优化网络方法技术

技术编号:32832755 阅读:26 留言:0更新日期:2022-03-26 20:48
本发明专利技术涉及一种基于PointCloudTransformer的多尺度优化网络方法,本发明专利技术所述多尺度优化网络包括3部分,第1部分为采样层,对输入点云进行一个特征采样。第2部分为,多尺度优化结构,含有不同尺寸卷积的线性激活层。其中每个卷积层后面连接batchnorm和ReLU,对采样后的点使用不同卷积尺度的线性激活层进行复合特征提取,然后与原输入进行拼接。第3部分为同尺寸卷积的线性激活层,该层主要是对第2部分输出的数据特征进一步的特征提取,作用类似于全连接层。通过实验对比发现,本发明专利技术构建的网络结构实验精度高,三个含有不同卷积尺寸的线性激活层结构提取特征强,实验效果较为理想。实验效果较为理想。实验效果较为理想。

【技术实现步骤摘要】
一种基于PointCloudTransformer的多尺度优化网络方法


[0001]本专利技术属于3D点云分类领域,它主要是应用于三维物体检测应用,是针对具有三维信息设备提出的一种深层神经网络。3D点云分类,是通过各自在三维物体中所反映的不同特征,把不同类别的目标区分开来的3D点云处理方法。它利用计算机对点云信息进行定量分析,把三维物体生成的每个点或点形成的区域划归为若干个类别中的某一种,以代替人的视觉判读。

技术介绍

[0002]在深度学习的发展背景下,2D图像的分类应用已经相当成熟,被普遍应用于人们日常生活中,但随着需求的增加,我们发现2D图像的分类的精度和视觉效果并没有3D点云的好。3D点云分类,相比2D图像分类,具有更丰富的特征信息,如包括三维坐标X,Y,Z、颜色、分类值、强度值、时间等等。
[0003]目前深度学习的大体发展趋势,是通过更深和更复杂的网络来得到更高的精度,然而这些更深更复杂的网络通常在模型的大小以及运行速度上不占优势。现实生活中的应用,如自动驾驶、测绘等,他们本身对网络的要求较高,就更需要一种、低延迟、高精度的网络模型。
[0004]Transformer是Google团队在17年6月提出的NLP(自然语言处理)经典之作,该网络提出的attention注意力机制后来被广泛运用在图像处理中,取得了较好的效果。在技术的不断发展中,3D点云领域也出现了注意力机制。PointCloudTransformer是一种新的基于Transformer的点云学习框架。与原来的Transformer网络不同的是,该网络采用隐式拉普拉斯算子和归一化改进的Self

attention自注意力机制见图1。从图1可以看出Self

attention自注意力机制主要通过网络学习到的Q,K值进行Softmax+Norm操作(归一化处理)得到权重与V值进行加权处理,最后与原始输入进行一个相对坐标特征的提取后经过线性激活层输出。由图可知,该自注意力机制的输入输出结构(N
×
d)都是一样,这就极大的方便了自注意力机制加到深度学习网络的任意层结构中。但是现有的PointCloudTransformer网络中的自注意力机制对特征的提取存在不足。

技术实现思路

[0005]在构建模型的时候,通过选择一种新型的多尺度网络结构来构建效果更好的模型。本专利技术主要是对3D视觉应用方面神经网络的优化,在PointCloudTransformer网络的基础上,对网络注意力模块进行一些优化和改进,提高网络的准确率。在同一数据集,不同网络的对比测试中,本专利技术所得到的结果较为理想,在精度上与其他模型相比都有较好的表现。
[0006]为了达到上述目的,本专利技术所设计的技术方案是:一种基于PointCloudTransformer的多尺度优化网络方法,以PointCloudTransformer网络为基础,结合当前比较优秀的网络结构,对原网络注意力机制部分进行改造。具体结构见图2。(本网
络为了便于说明,将第一维度的B,即batchsize省略。)该结构使用具体步骤如下:
[0007]步骤1,由于使用的pytorch框架进行训练,需要将特征维度提前才能进行卷积,所以将输入到该结构的N
×
d点云数据进行一个维度变换,转换为x(d
×
N)作为输入,来适合进行卷积操作。
[0008]步骤2,将转换后的输入分别输入到不同卷积尺度的线性激活层(LBR),然后进行拼接操作,线性层使用的是一维卷积进行,其中的操作过程如下,
[0009](1)第一个线性激活层(LBR1),令输入的点数据为x1(d,N),输出为y1(d,N),k=1(kernel_size=1),p(padding)=0此时类似与普通的全连接层。
[0010](2)第二个线性激活层(LBR2),令输入的点数据为x2(d,N),k=3。为了保证输出的y2与y1的维度相同,这里进行了padding填充,即在周围加了p=1的0,来使输出y2=y1=(d,N),且做到提取的特征不同。
[0011](3)第三个线性激活层(LBR3),令输入的点数据为x3(d,N),k=5。其做法和LBR2和相似,这里只不过这一层采用的k=5,p=2
[0012](4)进行拼接操作。令拼接后的输出设为y,则y的值可以表示为:
[0013]y=concat[x,y1,y2,y3]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0014]步骤3,将拼接操作后的y,再进行一个LBR1层,此层的目的是为了保持最终结构输出维度与原始输出维度相同。此时的LBR1层,输入输出维度发生了变化,输入是(4d,N),输出为(N,d),k=1与普通全连接层相似。
[0015]进一步的,步骤2中线性激活层中所用的BN层,进行的是归一化操作,采用的是BatchNorm1d函数,与现有技术相比,本专利技术的优点和有益效果。但最后的激活函数层(ReLU层),采用的是LeakyReLU激活函数,该激活函数相比传统的ReLU激活函数可以解决神经元”死亡“问题,即输入激活函数的值总是负的这种情况。
[0016]最后通过实验对比发现,本专利技术构建的网络结构精度高,结构稳定,实验效果比较理想。
[0017]本专利技术与原PointcloudTransformer中自注意力机制相比,添加了含有不同尺寸卷积的线性激活层,进行多维度的特征提取,更加有利于网络的准确率提高。在进行对比实验时,将其加入相同网络中的同一位置中,训练速度以及精度都有所增加,但是精度上提高的较为明显(具体实验效果见表2)。
附图说明
[0018]图1为PointcloudTransformer网络自注意力机制示意图;
[0019]图2为多尺度结构示意图;
[0020]图3为PointcloudTransformer网络实现流程图;
[0021]图4为本专利技术实施例构建的网络流程图;
具体实施方式
[0022]下面结合附图和实施例对本专利技术的技术方案作进一步说明。
[0023]本专利技术是以PointcloudTransformer网络为基础的优化神经网络,总的实施就是将原网络分类结构流程图(见图3)中的注意力机制(见图1)更换成专利技术的新型的多尺度结
构(见图2),最后得到就是最终网络的流程图(见图4),其主要步骤包括:
[0024]步骤1,如表1所示,输入的数据大小为1024
×
6,即1024个点,每个点6个特征。第一部分,首先进行两次基于距离和相对坐标的最远点采样,其目的是为了提取特征和降低训练点的个数。其数据大小从1024
×
6采样到256
×
128。第一次采样,输入的点大小从1024
×
6采样到512
×
64。第二次则是从512<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PointCloudTransformer的多尺度优化网络方法,以PointCloudTransformer网络为基础,结合当前的网络结构,对原网络注意力机制部分进行改造,其特征在于:该结构使用具体步骤如下:步骤1,由于使用的pytorch框架进行训练,需要将特征维度提前才能进行卷积,所以将输入到该结构的N
×
d点云数据进行一个维度变换,转换为x(d
×
N)作为输入,来适合进行卷积操作;步骤2,将转换后的输入分别输入到不同卷积尺度的线性激活层(LBR),然后进行拼接操作,线性层使用的是一维卷积进行,其中的操作过程如下,(1)第一个线性激活层(LBR1),令输入的点数据为x1(d,N),输出为y1(d,N),k=1(kernel_size=1),p(padding)=0此时类似与普通的全连接层;(2)第二个线性激活层(LBR2),令输入的点数据为x2(d,N),k=3,为了保证输出的y2与y1的维度相同,这里进行了padding填...

【专利技术属性】
技术研发人员:王改华王能元李麒刘洪
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1