一种基于多视角双注意网络的三维物体识别方法技术

技术编号:28421908 阅读:70 留言:0更新日期:2021-05-11 18:29
本发明专利技术提供了一种基于多视角双注意网络的三维物体识别方法,包括以下步骤:步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征;步骤2,将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;步骤3,将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;步骤4,将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到原始三维物体的预测识别分类结果。

【技术实现步骤摘要】
一种基于多视角双注意网络的三维物体识别方法
本专利技术涉及一种三维物体识别方法,具体涉及一种基于多视角双注意网络的三维物体识别方法。
技术介绍
近几年来随着三维成像传感器和三维重建技术的发展,人们可以从生活中便捷地捕获大量的三维物体结构信息。三维对象的识别已经成为计算机视觉和人工智能领域中最基本的问题之一。随着大规模三维数据库和深度学习的快速发展,已经提出了各种方法用于三维物体识别。三维物体识别研究根据方法不同主要分为二大类:早期的传统方法和近期深度学习的方法。早期三维物体识别一般采用人工设计的三维数据描述特征和机器学习的方法分类识别。近期基于深度学习的三维物体识别可分为:基于体素的方法,基于点云的方法和基于多视图的方法。基于体素的代表方法是是美国卡内基梅隆大学Maturana等人提出的VoxNet,引入了一个称为VoxNet的体积占用网络来实现鲁棒性的三维目标识别。基于体素的方法体素形式的数据精度依赖于其分辨率,高分辨率所带来的庞大计算量限制了其发展。基于点云的方法代表作是是美国斯坦福大学CharlesQi等人提出的Point本文档来自技高网...

【技术保护点】
1.一种基于多视角双注意网络的三维物体识别方法,其特征在于,包括以下步骤:/n步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个所述视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征;/n步骤2,将n个所述视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;/n步骤3,将n个所述视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;/n步骤4,将所述视觉空间描述符和所述视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到所述原始三维物体的预测识别分类结果。/n

【技术特征摘要】
1.一种基于多视角双注意网络的三维物体识别方法,其特征在于,包括以下步骤:
步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个所述视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征;
步骤2,将n个所述视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;
步骤3,将n个所述视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;
步骤4,将所述视觉空间描述符和所述视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到所述原始三维物体的预测识别分类结果。


2.根据权利要求1所述的基于多视角双注意网络的三维物体识别方法,其特征在于:
其中,所述步骤1包括以下子步骤:
步骤1-1,对于所述原始三维物体M,将其从n个视角投影到二维平面渲染成n个所述视图,X→(x1,x2,…,xi,…,xn),其中,xi为第i个视图;
步骤1-2,n个所述视图经过所述基础CNN模型后得到n个不同视角下的所述视觉特征(f1,f2,…,fi,…,fn),其中,fi为第i个所述视图的所述视觉特征,fi∈RC×H×W。


3.根据权利要求1所述的基于多视角双注意网络的三维物体识别方法,其特征在于:
其中,所述步骤2中包括以下子步骤:
步骤2-1,将输入的所述视觉特征用第一总体特征进行表示,将所述第一总体特征馈入两个卷积层,分别生成两个新的特征映射Query和Key,如公式(1)、(2),
Query=Z(fs)(1)
Key=T(Z(fs))(2)
公式(1)和公式(2)中,Z是卷积核大小为1*1的卷积层,T为转置操作,将其reshape为其中N=H1×W1为所述第一总体特征fs的空间大小,
在Query的转置和Key之间进行矩阵乘法,并应用一层softmax层来计算得到空间注意力矩阵S∈RN×N,softmax函数用于保证所述视图特征的权重总和为1,如公式(3),



公式(3)中,Sij为所述视图空间注意力模块得到的所述空间注意力矩阵,用于度量所述视图内ith位置对jth位置的相关性,权重越大越相似;
步骤2-2,将所述第一总体特征fs馈入另一分支,此分支为原始特征空间分支,该分支的特征与输入的所述视图特征具有相同的分辨率来保存原始特征信息,将所述第一总体特征fs经过卷积处理生成一个新的特征映射Value∈RC1×H1×1,并将Value进行reshape为∈RC×N,然后将其与所述空间注意力矩阵S进行矩阵乘法,再与所述第一总体特征fs进行元素求...

【专利技术属性】
技术研发人员:蔡宇王文举王涛
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1