当前位置: 首页 > 专利查询>天津大学专利>正文

基于深度学习的多源图像融合和特征提取算法制造技术

技术编号:20285432 阅读:16 留言:0更新日期:2019-02-10 17:55
本发明专利技术公开了一种基于深度学习的多源图像融合和特征提取算法,包括:将数据库中的每个三维模型置于一个虚拟的正十二面体中,将虚拟相机安置在正十二面体的均匀分布的二十个顶点上,从三维空间的视点中对原始物体进行虚拟拍照,得到单个目标的二十个视图,构成多视图模型数据库;将多视图模型数据库按照7:2:1的比例划分为训练集、测试集和验证集,利用视图姿态标签这一隐变量重新定义损失函数,通过反向传播算法最小化损失函数;在最小化损失函数后,神经网络最后一层通过softmax级联输出单个目标的多个视图,在候选视图姿态标签的约束下所属类别的得分。本发明专利技术避免了对特征所处空间的依赖,提高了目标分类的精度。

Multi-source image fusion and feature extraction algorithm based on depth learning

The invention discloses a multi-source image fusion and feature extraction algorithm based on depth learning, which includes: putting every three-dimensional model in the database into a virtual regular dodecahedron, putting the virtual camera on 20 vertices with uniform distribution of the regular dodecahedron, taking virtual photographs of the original object from the viewpoint of the three-dimensional space, and obtaining 20 views of a single object. Graph is used to construct multi-view model database. The multi-view model database is divided into training set, test set and verification set according to the ratio of 7:2:1. The hidden variable of view attitude label is used to redefine the loss function, and the loss function is minimized by back-propagation algorithm. At the end of the minimization loss function, the last layer of the neural network outputs multiple targets through soft Max cascade. View, the score of the category under the constraint of the candidate view attitude tag. The invention avoids the dependence on the space where the feature is located and improves the accuracy of target classification.

【技术实现步骤摘要】
基于深度学习的多源图像融合和特征提取算法
本专利技术涉及多视图目标分类领域,尤其涉及一种基于深度学习的多源图像融合和特征提取算法。
技术介绍
伴随着数字化、显示技术和三维建模[1]等技术的日益成熟,三维模型这一目标呈现出爆破式地增长,如何对这一目标进行高效分析和检索成为一个重要的研究问题[2]。而目标分类[3]作为三维模型检索中重要的一步,能够在很大程度上影响分类的速度和精度,通过类别来限定检索的范围,既能提高检索的效率,又能提高检索的精度。而目标分类技术,是指将一部分已经标注过的目标(比如:图像、视频、三维模型等[4])作为训练样本,通过深度学习等算法对其进行训练,得到最优的分类器。目标分类技术是三维模型检索中重要的一步,目前三维模型检索主要有两大类[5]:第一类是基于文本进行三维模型检索,另外一类基于三维模型的内容检索更加常见。在一类中,通过文本标注,将三维模型进行文字标注,通过标注来检索获取三维模型。但由于文本的二义性和三维模型复杂的空间结构信息,检索效果不太理想。第二类是基于内容的检索,根据三维模型的拓扑结构[6]、几何形状[7]等形状内容来获取目标的形状特征,将特征存储后,进行检索。而几何相似性是基于内容检索中的主要组成部分,它不仅能相对精确的描述三维模型的内在信息,还无需人工干预,排除了因人工标注而导致的信息差异性。基于内容的检索分为两类[8]:基于模型的检索和基于视图的检索。由于基于模型的检索受到计算量的限制应用不是很广泛,现在较为常用的是基于视图的检索。基于视图的三维模型检索方法使用二维视图来描述三维模型,同时,三维模型的比较也是基于二维视图之间的比较实现的。基于多视图的目标分类方法领域目前面临的挑战主要有两个方面[9]:1、视图本身不能表征目标三维模型的拓扑结构,基于视图进行三维模型分类有一定的局限性。2、如何去选取最优视图在一定程度上影响了最终目标分类的精度,而关于最优视图的选择目前还没有比较完善的方法。基于视图的三维模型检索领域目前面临的主要挑战为[10]:大多数方法都关注在相似度计算和模型结构表征上,而忽略了对特征的学习和优化,限制了实际应用范围。
技术实现思路
本专利技术提供了一种基于深度学习的多源图像融合和特征提取算法,本专利技术避免了对特征所处空间的依赖,提高了目标分类的精度,详见下文描述:一种基于深度学习的多源图像融合和特征提取算法,所述方法包括以下步骤:将数据库中的每个三维模型置于一个虚拟的正十二面体中,将虚拟相机安置在正十二面体的均匀分布的二十个顶点上,从三维空间的视点中对原始物体进行虚拟拍照,得到单个目标的二十个视图,构成多视图模型数据库;将多视图模型数据库按照7:2:1的比例划分为训练集、测试集和验证集,利用视图姿态标签这一隐变量重新定义损失函数,通过反向传播算法最小化损失函数;在最小化损失函数后,神经网络最后一层通过softmax级联输出单个目标的多个视图,在候选视图姿态标签的约束下所属类别的得分。所述的数据库为ModelNet40数据库。进一步地,所述利用视图姿态标签这一隐变量重新定义损失函数具体为:其中,R是神经网络模型中所有超参数的集合,vi是单个视图姿态标签,神经网络模型的训练过程就是找到最优的R和vi使得最终输出的概率P的累计乘积最大。具体实现时,所述在候选视图姿态标签的约束下所属类别的得分具体为:确定任一视图在候选视图姿态标签约束下的类别得分,将该得分累计相乘,即可以得到直方图,用于确定目标最终的姿态及其类别。进一步地,所述神经网络模型通过以下公式进行目标类别和视图姿态标签的判定:与训练阶段相似,是由经过softmax分类得到的矩阵决定,最终不仅能预测出目标所属的类别,还能预测出单个目标输入视图的标签。本专利技术提供的技术方案的有益效果是:1、通过本方法引入视图姿态隐标签,能够有效提高目标分类的精度;2、本方法针对目标的多视图分类基于深度学习设计了全新的网络结构;3、本方法大幅提高了目标分类的精度和效率,改善了传统方法针对多视图特征融合而导致信息缺失的问题。附图说明图1为一种基于深度学习的多源图像融合和特征提取算法的流程图;图2为单个目标经过虚拟拍照后得到多视图的示意图;图3为基于深度学习进行目标检索的查准-查全曲线的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。实施例1一种基于深度学习的多源图像融合和特征提取算法,参见图1,该方法包括以下步骤:101:将数据库中的每个三维模型置于一个虚拟的正十二面体中,将虚拟相机安置在正十二面体的均匀分布的二十个顶点上,从三维空间的视点中对原始物体进行虚拟拍照,得到单个目标的二十个视图,构成多视图模型数据库;102:将多视图模型数据库按照7:2:1的比例划分为训练集、测试集和验证集,利用视图姿态标签这一隐变量重新定义损失函数,通过反向传播算法最小化损失函数;103:在最小化损失函数后,神经网络最后一层通过softmax级联输出单个目标的多个视图,在候选视图姿态标签的约束下所属类别的得分。进一步地,步骤103中的在候选视图姿态标签的约束下所属类别的得分具体为:确定任一视图在候选视图姿态标签约束下的类别得分,将该得分累计相乘,即可以得到直方图,用于确定目标最终的姿态及其类别。综上所述,本专利技术实施例针对目标的多视图分类基于深度学习设计了全新的网络结构,避免了对特征所处空间的依赖,提高了目标分类的精度。实施例2下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:201:将ModelNet40[11]数据库中的每个三维模型置于一个虚拟的正十二面体中,将虚拟相机安置在正十二面体的二十个顶点上,从这二十个均匀分布在三维空间的视点中对原始物体进行虚拟拍照,即可以得到单个目标的二十个视图;其中,上述步骤201主要包括:预定义一组视点,视点即为观测目标物体的视点,设M为预定义视点的数量,在本专利技术实施例中,M取为20。将虚拟相机放在包含目标的十二面体的20个顶点上,正十二面体是包含顶点的数量最多的正多面体,并且其视点完全均匀的分布在三维空间中。由于十二面体的每个顶点是由三条边相交而成,单个视点观察目标视图有三种不同的旋转方向。因此,单个目标的所有视图姿态标签候选数量为预定义视点数量的3倍:3M=60,即为其中vi为ModelNet40数据库中单个训练样本的第i个视图姿态标签,vi∈{1,...,20},此外将记作单个目标的所有视图的集合。将数据库中所有物体进行投影,每个目标得到20个视图,所有目标的20个视图即构成了多视图模型数据库。以ModelNet40为例,ModelNet40是由普林斯顿大学收集构建的三维模型数据库,主要有12311个CAD三维模型,将数据库中的每个模型进行投影,即可以得到246220个视图,构成了多视图模型数据库。图2为从多视图模型数据库中取的某单个模型,经过虚拟拍照后的多视图示意图。202:将上述得到的多视图模型数据库按照7:2:1的比例划分为训练集、测试集和验证集,利用视图姿态标签这一隐变量重新定义损失函数,通过反向传播算法最小化损失函数;其中,上述步骤202主要包括:1)将构建的多视图模型数据库按照7:2:1的比例划分为训练集,测本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的多源图像融合和特征提取算法,其特征在于,所述方法包括以下步骤:将数据库中的每个三维模型置于一个虚拟的正十二面体中,将虚拟相机安置在正十二面体的均匀分布的二十个顶点上,从三维空间的视点中对原始物体进行虚拟拍照,得到单个目标的二十个视图,构成多视图模型数据库;将多视图模型数据库按照7:2:1的比例划分为训练集、测试集和验证集,利用视图姿态标签这一隐变量重新定义损失函数,通过反向传播算法最小化损失函数;在最小化损失函数后,神经网络最后一层通过softmax级联输出单个目标的多个视图,在候选视图姿态标签的约束下所属类别的得分。

【技术特征摘要】
1.一种基于深度学习的多源图像融合和特征提取算法,其特征在于,所述方法包括以下步骤:将数据库中的每个三维模型置于一个虚拟的正十二面体中,将虚拟相机安置在正十二面体的均匀分布的二十个顶点上,从三维空间的视点中对原始物体进行虚拟拍照,得到单个目标的二十个视图,构成多视图模型数据库;将多视图模型数据库按照7:2:1的比例划分为训练集、测试集和验证集,利用视图姿态标签这一隐变量重新定义损失函数,通过反向传播算法最小化损失函数;在最小化损失函数后,神经网络最后一层通过softmax级联输出单个目标的多个视图,在候选视图姿态标签的约束下所属类别的得分。2.根据权利要求1所述的一种基于深度学习的多源图像融合和特征提取算法,其特征在于,所述的数据库为ModelNet40数据库。3.根据权利要求1所述的一种基于深度学习的多源图像融合和特征提取...

【专利技术属性】
技术研发人员:周河宇韦莎程雨航王伟忠刘安安聂为之苏育挺
申请(专利权)人:天津大学中国电子技术标准化研究院
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1