【技术实现步骤摘要】
一种基于自注意力机制的3D物体识别方法和系统
[0001]本专利技术涉及3D物体识别的
,更具体地,涉及一种基于自注意力机制的3D物体识别方法和系统。
技术介绍
[0002]近年来,3D物体识别成为人工智能最重要的研究和应用方向之一,在现实应用场景中也极具挑战性。其主要的研究方法分为三类:基于体素的方法、基于点云的方法和基于视图的方法。由于卷积神经网络对图像特征提取技术的成熟,基于视图的方法取得了最大的进展。在传统的基于视图的方法中,将3D物体多视角图经过卷积神经网络提取特征后进行最大池化操作来聚合多视角图的信息,从而得到表示3D物体多视角图的描述符。3D物体多视角图是通过不同视角的映射得到的图像,然而在相近或相远的视图之间存在着与特征相关的联系,如相近视角的视图共同特征比较多,而相远视角的视图差异性大。但利用简单的最大池化操作来聚合多视角图的信息忽略了视图与视图之间的联系,且会造成视图信息的冗余。近年来,越来越多的研究者考虑到视图之间的联系,通过各种方法来增加视图之间的联系来让训练模型学习到更多有用信息,但很少人考虑 ...
【技术保护点】
【技术特征摘要】
1.一种基于自注意力机制的3D物体识别方法,其特征在于,包括S1:获取待识别3D物体的多视角图和每张视角图的位置信息;S2:将所述待识别3D物体的多视角图输入预训练的卷积神经网络进行分类,获得多视角图的特征编码和分类得分;S3:将每一张视角图的位置信息结合视图无关信息,嵌入相应视角图的特征编码中,获得第一嵌入特征编码;S4:将第一嵌入特征编码输入第一自注意力网络模型,输出第一自注意力特征编码;S5:根据所述视角图的分类得分,对第一自注意力特征编码进行采样,获得采样结果;S6:在所述采样结果中嵌入对应的视角图的位置信息和视图无关信息获得第二嵌入特征编码;S7:将第二嵌入特征编码输入第二自注意力网络模型,输出第二自注意力特征编码;S8:根据第一自注意力特征编码和第二自注意力特征编码,构建全局特征描述符;S9:根据全局特征描述符进行分类检索,获得识别3D物体的识别结果。2.根据权利要求1所述的基于自注意力机制的3D物体识别方法,其特征在于,所述步骤S1中,获取每张视角图的位置信息的具体方法为:根据待识别3D物体的多视角图的视角顺序,对每张视角图进行编号;利用正余弦位置编码函数对每张视角图进行编码,将获得的位置编码作为每张视角图位置信息;所述正余弦位置编码函数为:PE
(pos,2i)
=sin(pos/10000
2i/d
)PE
(pos,2i+1)
=cos(pos/10000
2i+1/d
)式中,pos表示视角图的顺序编号,pos=1,2,
…
,n,n表示多视角图的数量;d表示位置编码的特征向量长度;i表示位置编码的特征向量中的第i个元素,偶数位用sin编码,奇数位用cos编码,则PE
(pos,2i)
表示第pos张视角图偶数位的位置编码值,PE
(pos,2i+1)
表示第pos张视角图奇数位的位置编码值,根据PE
(pos,2i)
和PE
(pos,2i+1)
组成第pos张视角图的位置编码E
pos
,作为该视角图的位置信息。3.根据权利要求2所述的基于自注意力机制的3D物体识别方法,其特征在于,所述步骤S2中,预训练的卷积神经网络为VggNet网络;将所述待识别3D物体的多视角图输入预训练的VggNet网络,输出多视角图的特征编码F=[f1,f2,
…
,f
n
]和分类得分,f
n
表示第n张视角图的特征编码。4.根据权利要求3所述的基于自注意力机制的3D物体识别方法,其特征在于,所述步骤S3中,获得第一嵌入特征编码的具体方法为:设置视图无关信息[class]token,视图无关信息[class]token是一个可学习向量,维度与视角图的特征编码的维度相同;则第一嵌入特征编码为:X0=[f
[class]
,f1,f2,
…
,f
n
]+E
pos
式中,X0表示第一嵌入特征编码,f
[class]
表示视图无关信息的第一特征编码。5.根据权利要求4所述的基于自注意力机制的3D物体识别方法,其特征在于,所述步骤S4中,第一自注意力网络模型包括N个依次连接的自注意网络;每个自注意网络均包括依次连接的第一归一化层、多头注意层、第一残差点、第二归一化层、线性映射层和第二残差点;第一嵌入特征编码X0输入第一自注意网络,依次经过第一归一化层和多头注意层处理
后,与X0在第一残差连接点连接获得中间特征编码X
′
;X
′
依次经过第二归一化层和线性映射层处理,与X
′
在第二残差点连接获得第一自注意网络输出X1;即:X
′
=MHA(LN1(X0))+X0X1=MLP(LN2(X
′
))+X
′
式中,LN1表示第一归一化操作,MHA表示多头注意操作,LN2表示第二归一化操作,MLP线性映射操作;将第一自注意网络输出X1输入第二自注意网络,按照相同的方法,输出第二自注意网络输出X2;直至经过N个自注意网络的处理,则:X
′
=MHA(LN1(X
N
‑1))+X
N
‑...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。