当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多模态信息融合的三维模型分类方法技术

技术编号:25042127 阅读:22 留言:0更新日期:2020-07-29 05:32
本发明专利技术公开了一种基于多模态信息融合的三维模型分类方法(MIFN,Multi‑modal Information Fusion based on LSTM),所述方法包括以下步骤:利用开放(OPENGL,Open Graphics Library)提取三维模型的视图信息和全景图信息,利用点云库(PCL,Point Cloud Library)提取三维模型的点云信息;通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型,利用多模态网络模型获取三维模型在不同模态下的预测得分;通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分,利用Softmax算法对最终的预测得分进行处理生成类标签。本发明专利技术通过融合三维模型三种模态的信息来表征三维模型,相比于仅仅使用单模态信息包含的信息更加全面,提升了三维模型分类的准确性。

【技术实现步骤摘要】
一种基于多模态信息融合的三维模型分类方法
本专利技术涉及三维模型分类领域,尤其涉及一种基于多模态信息融合的三维模型分类方法。
技术介绍
近年来,随着科学技术的高速发展,3D技术在工业设计、医疗器械、建筑设计、航空航天、汽车制造、影视动画等领域得到了广泛的应用,三维模型的种类和数量也随之增长,从计算机视图领域来看,三维模型分类已经成为发展的必然趋势。三维模型的分类和检索已经在多媒体和计算机视图领域得到了广泛的应用,随着计算机图形学的发展,应用于三维模型表征的各种算法都取得了很好的性能,深度学习的快速发展衍生出许多表征三维模型的深度学习模型,深度学习模型在三维模型分类领域呈现出显著的性能。在三维模型分类领域,多视图、全景图、点云图、体素等都是三维模型的表征方法。多视图是多个二维视图的集合,可以通过将多个虚拟摄像机以固定距离摆放在三维模型周围拍摄得到。Su等人[1]将多视图输入卷积神经网络进而得到三维模型的特征描述符,基于三维模型数据库利用该特征进行分类取得了很好的分类效果,但是该描述符仅包含三维模型的视图信息不能全面地诠释三维模型。点云是将三维模型转换为一系列带有三维坐标的点数据,将得到的原始点云数据输入点云网络进而对点云的空间特征进行最大化处理,即使获取到的点云的数据量较小,利用点云网络[2]提取到的特征也能有效地对三维模型进行分类。Sfikas[3]等人将三维模型全景图输入卷积神经网络进而实现三维模型的分类,全景图由一系列代表三维模型视图信息和结构信息的图像构成。三维模型的网格数据是三维模型网络中顶点、边和面的组合,由于三维模型可以表征成多个网格网络,因此网格数据具有复杂和不规则的特点。体素是三维模型分割的最小单元,类似于二维图像中像素的概念,体素非常复杂,因此不是三维模型表征的主流方法。以上方法都仅仅使用了三维模型的单模态信息,对三维模型的表征并不全面,由于它们包含三维模型不同模态下的信息,因此可以借鉴以上方法获取既包含三维模型结构信息,又包含视图信息的特征描述符增强分类的准确性。
技术实现思路
本专利技术提供了一种基于多模态信息融合的三维模型分类方法,本方法利用点云和全景图表征三维模型的视图、结构和表面信息,然后利用MVCNN[1],PointNet[2]和PANORAMA-MVCNN[3]获取三维模型分类的预测得分,最后将不同网络得到的分类结果进行融合进而得到带有权重的最终分类结果。该方法通过融合三维模型三种模态的信息来表征三维模型,相比于仅仅使用单模态信息包含的信息更加全面,提升了三维模型分类的准确性,详见下文描述:一种基于多模态信息融合的三维模型分类方法,所述方法包括以下步骤:利用OPENGL提取三维模型的视图信息和全景图信息,利用PCL提取三维模型的点云信息;通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型,利用多模态网络模型获取三维模型在不同模态下的预测得分;通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分,利用Softmax算法对最终的预测得分进行处理生成类标签。本专利技术提供的技术方案的有益效果是:1、本专利技术通过提取三维模型多视图、点云、全景图信息来表征三维模型,使得三维模型的特征描述更加全面;2、本专利技术提出了一种多模态分类网络,该方法通过融合三维模型的多模态信息提升三维模型分类的准确度。附图说明图1为一种基于多模态信息融合的三维模型分类方法的框架图;图2为三维模型的全景图;图3为不同权重配比的分类性能图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。三维形状识别根据不同的方式主要分为四类:基于网格的方法、基于体积的方法、基于视图的方法和多模态融合方法。基于网格的方法:三维模型的网格数据由顶点、边和面组成,网格具有比其他格式的数据更强大的三维形状描述能力。基于体积的方法:首先利用体素和点云去表征三维模型,然后类比于二维图像的卷积运算对其进行卷积操作,将卷积操作后的结果作为三维模型的最终表示。基于视图的方法:首先利用虚拟摄像机获取三维模型的多视角视图,通过提取多视角视图的特征来表征三维模型。多模态融合方法:以上方法都仅仅使用了三维模型的单模态信息,由于它们包含不同模态下的信息,因此可以借鉴以上方法获取既包含三维模型结构信息,又包含视图信息的特征描述符进而增强分类的准确度,为了充分利用三维模型不同模态特征表示的优势,本专利技术设计了多模态信息融合网络(MIFN,Multi-modalInformationFusionbasedonLSTM),与传统的分类网络只应用三维模型单一模态信息相比,该网络在分类预测模块综合所有模态信息进行分类。为了提高分类的精确度,本专利技术首先对模型进行预处理,每种模态根据不同的网络对三维模型进行分类,在对网络进行训练更新参数时,本专利技术对各模态网络单独训练以保证单模态网络可以获得最佳性能,然后设计一个一致性函数将不同模态下的预测得分聚合在一起生成最终的预测得分,最终的预测得分相比于单模态预测包含的信息量更大,预测的结果更准确。实施例1为了实现三维模型的精确分类,本专利技术实施例提出了一种基于多模态融合的三维模型分类方法,参见图1,详见下文描述:101:利用OPENGL(开放库)提取三维模型的多视图信息和全景图信息,利用PCL(点云库)提取三维模型的点云信息;102:通过对多模态网络进行独立的单模态网络训练获取多模态网络模型,利用多模态网络模型获取三维模型在不同模态下的预测得分;103:通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分,利用Softmax算法对最终的预测得分进行处理生成类标签。其中,步骤101中利用OPENGL提取三维模型的多视图信息和全景图信息,利用PCL提取三维模型的点云信息的具体步骤为:1)由于三维模型的大小和角度不一致,首先使用NPCA[4][5]对三维模型进行校准。接着利用OPENGL提供的接口实现三维模型的渲染,然后在OPENGL的渲染系统里围绕三维模型每隔30度放置一个虚拟摄像机,摄像机镜头以30度的俯角对准三维模型质心,通过连续拍摄获取三维模型的多视角视图(12张)。2)全景图是一组包含三维模型表面信息的二维视图,在对三维模型进行校准、渲染操作后,以三维模型的质心为原点将三维模型的曲面投影到圆柱体曲面上,圆柱体的半径R是三维模型表面到圆柱体轴线的最大距离的三倍,圆柱的高度是2R,若将z轴作为圆柱体的轴线,使用一组点集S(φ,z)表示投影数据,其中φ是三维模型中点的角度,z是点的高度。3)由该点集针对每一个坐标轴依据四种不同的数据可以生成四种全景图:1、模型曲面在三维空间中的位置(SDM);2、模型曲面的方向(NDM);3、NDM的梯度图;4、由以上三种图形构成的三通道图。因此每一个三维模型选择坐标系中的不同轴作为轴线都可以生成如本文档来自技高网
...

【技术保护点】
1.一种基于多模态信息融合的三维模型分类方法,其特征在于,所述方法包括以下步骤:/n1)利用OPENGL提取三维模型的视图信息和全景图信息,利用PCL提取三维模型的点云信息;/n2)通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型,利用多模态网络模型获取三维模型在不同模态下的预测得分;/n3)通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分,利用Softmax算法对最终的预测得分进行处理生成类标签;/n其中,上述步骤1)具体为:/n利用OPENGL实现三维模型的渲染,其中OPENGL提供了一系列渲染三维矢量图形的接口;/n通过对三维模型的多视角拍摄获取表征三维模型视图信息的多视角视图,通过对三维模型的曲面投影获取三维模型的全景图信息;/n利用蝴蝶细分算法对三维模型的表面信息进行细分进而实现三维模型的网格化;/n利用网格的质心表示三维模型中的网格,PCL提供了点云操作的一系列接口,通过调用PCL中的库函数获取表征三维模型的1024个点,1024个点构成了三维模型的点云信息。/n

【技术特征摘要】
1.一种基于多模态信息融合的三维模型分类方法,其特征在于,所述方法包括以下步骤:
1)利用OPENGL提取三维模型的视图信息和全景图信息,利用PCL提取三维模型的点云信息;
2)通过对多模态网络进行独立的单模态网络训练进而学习多模态网络模型,利用多模态网络模型获取三维模型在不同模态下的预测得分;
3)通过构造聚合函数将不同模态下的预测得分聚合在一起生成最终的预测得分,利用Softmax算法对最终的预测得分进行处理生成类标签;
其中,上述步骤1)具体为:
利用OPENGL实现三维模型的渲染,其中OPENGL提供了一系列渲染三维矢量图形的接口;
通过对三维模型的多视角拍摄获取表征三维模型视图信息的多视角视图,通过对三维模型的曲面投影获取三维模型的全景图信息;
利用蝴蝶细分算法对三维模型的表面信息进行细分进而实现三维模型的网格化;
利用网格的质心表示三维模型中的网格,PCL提供了点云操作的一系列接口,通过调用PCL中的库函数获取表征三维模型的1024个点,1024个点构成了三维模型的点云信息。


2.根据权利要求1所述的...

【专利技术属性】
技术研发人员:张静陈闯聂为之
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1