基于超限学习机和融合卷积网络的3D物体识别方法技术

技术编号:21090813 阅读:88 留言:0更新日期:2019-05-11 10:24
本发明专利技术涉及一种基于超限学习机和融合卷积网络的3D物体识别方法,模型以3D物体的多视角投影图作为输入,经过多层融合卷积网络提取特征,利用半随机的ELM网络进行分类;卷积网络由提出的融合卷积单元组成,是一种改进的残差单元,多个并行残差通道上的卷积核个数依次增加,相同大小的卷积核参数共享。半数卷积核参数以高斯分布随机产生,其余通过训练寻优得到,使其能拟合更复杂的非线性函数,增加低层网络的特征提取能力。方法中使用了半随机的超限学习机分类层,既降低了模型训练的时间又增加了网络的稀疏性;结合了超限学习机和融合卷积网络,以2D视角图作为输入,其识别3D物体的准确率高于现有的深度学习的方法,网络实现更简单。

3D Object Recognition Method Based on Overbound Learning Machine and Fusion Convolution Network

【技术实现步骤摘要】
基于超限学习机和融合卷积网络的3D物体识别方法
本专利技术涉及一种3D物体识别技术,特别涉及一种基于超限学习机和融合卷积网络的3D物体识别方法。
技术介绍
3D物体识别是人工智能最重要的研究和应用方向之一,也是自然场景理解最具挑战性的任务之一。在图像处理中,二维图像被离散化为多个像素点。一般,3D模型的处理与之类似,被离散化为多个三维体素(volumepixel)点。3D模型分类和3D物体识别的重点是提取三维结构的内部特征。很多研究者利用深度学习网络结构自动提取3D物体的特征并进行分类。现有的“一种RGB-D物体识别方法”专利技术专利中采集3D物体的RGB图像信息和深度信息,提取物体的特征矢量进行识别。这种方法需要用到能采集深度信息的摄像头,并且需要预先训练大量的特征数据库以进行对比。现有的国内外论文中,使用RGB-D信息识别3D物体的准确率并不高。上述专利中的识别方法包括以下步骤:获取由彩色图像生成的灰度图像、由深度图像生成的表面法向量,将彩色图像、灰度图像、深度图像和表面法向量共同作为多数据模式信息;通过卷积-递归神经网络分别提取彩色图像、灰度图像和表面法向量中的高层特征;利用卷积-费舍尔向量-递归神经网络提取深度图像的高层特征;将上述多个高层特征进行特征融合,得到物体的总特征,将物体的总特征输入特征分类器中实现物体识别任务。现有的拍照识别物体的技术多是获取物体的单个2D图像信息。这种方式受光照、视角、背景等影响较大。识别技术所训练的模型让计算机识别的仍是“2D”物体。而加入了深度信息的3D物体识别往往计算复杂,识别率低,并且获取物体的RGB-D信息成本较高。
技术实现思路
本专利技术是针对3D物体识别存在的问题,提出了一种基于超限学习机和融合卷积网络的3D物体识别方法,获取3D物体在6种不同视角下的图像;利用融合卷积网络分别提取每个图像的特征;根据提取的特征和训练的半随机超限学习机分类层对物体进行分类和识别。本专利技术的技术方案为:一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:1)建立基于超限学习机和融合卷积网络的预测网络模型:1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;1.5)训练多层融合卷积网络,提取高层语义特征;1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。所述步骤1.1)中获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。所述步骤1.2)所述多个串并联的融合卷积单元,融合卷积单元分为随机单元和稀疏单元两种,使用交叉网络结构进行组合;网络的第i层包含2i-1个随机融合卷积单元和2i-1个稀疏融合卷积单元。所述步骤1.3)中多个不同残差通道的卷积层输出图像为Gp,q,Mp,q是mask二值图像经过和Gp,q相同的下采样后得到的图像;Gp,q和Mp,q图像矩阵对应的元素值相乘得到mask层输出图像。所述步骤1.4)中池化层位于mask层之后,且所有的池化操作均为2*2均值池化。本专利技术的有益效果在于:本专利技术基于超限学习机和融合卷积网络的3D物体识别方法,3D物体的特征提取采用新型的融合卷积网络,这种网络能拟合更复杂的非线性残差项函数,大大提高了低层网络的特征表达能力;方法中使用了半随机的超限学习机分类层,既降低了模型训练的时间又增加了网络的稀疏性;本专利技术结合了超限学习机和融合卷积网络,其识别3D物体的准确率高于现有的深度学习的方法,网络实现更简单,并且其直接以2D视角图作为输入,无需深度信息也能获得物体的3D特征。附图说明图1为本专利技术基于超限学习机和融合卷积网络识别3D物体的网络结构图;图2为本专利技术K通道的融合卷积单元图;图3为本专利技术基于超限学习机的融合卷积网络图;图4为本专利技术方法识别3D物体过程图。具体实施方式本专利技术提出了一种基于超限学习机网络(ELM)和融合卷积网络(CCN)的3D物体识别方法。图1所示为基于超限学习机和融合卷积网络识别3D物体的网络结构图,1、输入共有D*N张图片,N为样本数,D为投影视角数,每个视角图像对应一个特征提取的通道,图1中D=6,即使用6个视图通道,利用3D物体的多视角图作为输入训练网络模型;2、每个通道中包含多层并联和串联的融合卷积单元,使用融合卷积单元提取特征,其中,融合卷积单元在残差单元上改进了残差项函数的形式,使其能拟合更复杂的非线性函数,增加低层网络的特征提取能力;3、卷积层后另增加了一个mask层,mask层图像是输入原图划去了背景和不相关元素后的二值图像,用于消除背景和干扰特征,mask图像和原图做像素级别的点乘操作;4、mask层后的池化层为2*2均值池化操作,增加旋转和平移不变性;5、将每个视图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的参数,得到预测网络模型。6、识别时,将3D物体的多视角图输入预测网络模型,提取特征后,在分类层进行识别。获得3D物体的多视角图方法为,先使用Kinect采集3D物体或者真实场景的3维扫描模型,再利用OpenGL以3维模型的中心为中心点,构造一个正多面体,以正多面体的顶点为投影视角点,对3维模型进行多视角投影,获得不同视角的图像。CCN-ELM结合了融合卷积网络(CCN)和超限学习机(ELM)网络。CCN-ELM网络有3个主要特点:1)同一个视图通道的融合卷积单元里,相同大小的卷积核参数共享;2)融合卷积层中一半的卷积核参数由高斯分布随机产生并经过了归一化处理,另一半则通过构造稀疏矩阵加高斯白噪声寻优的方法获得;3)多残差通道卷积层和mask层提取特征,ELM层分类。CCN-ELM的训练过程分为两步:融合卷积网络提取特征和ELM网络进行矩阵运算训练分类层参数。融合卷积网络包含多个串并联的融合卷积单元(CCB),融合卷积单元结构如图2所示,由k个不同残差通道的卷积层加上mask层和池化层构成;融合卷积单元分为随机单元和稀疏单元两种,它们在网络中的组合方式如图3所示,网络的第i层包含2i个融合卷积单元。这种交叉网络结构可以有效增强网络的特征提取能力,并能缓解过拟合现象。下面具体讨论特征提取的方法。引入残差后的映射对输出的变化更敏感。本文档来自技高网
...

【技术保护点】
1.一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:1)建立基于超限学习机和融合卷积网络的预测网络模型:1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;1.5)训练多层融合卷积网络,提取高层语义特征;1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。...

【技术特征摘要】
1.一种基于超限学习机和融合卷积网络的3D物体识别方法,其特征在于,具体包括如下步骤:1)建立基于超限学习机和融合卷积网络的预测网络模型:1.1)利用大量的3D物体的多视角图作为输入训练预测网络模型,每个视角图对应一个特征提取通道;1.2)训练融合卷积网络提取特征:融合卷积网络包含多个串并联的融合卷积单元,每个融合卷积单元依次包含多个不同残差通道的卷积层、mask层和池化层;1.3)训练多残差通道卷积层提取3D特征,使用mask层消除背景和干扰特征;Mask层图像是输入的原视角图划去了背景和不相关元素后的二值图像,其大小与输入图像相同,mask二值图像被用于和卷积后的图像进行像素矩阵运算;1.4)池化层进行均值池化操作,降低维度并增加旋转和平移不变性;1.5)训练多层融合卷积网络,提取高层语义特征;1.6)将每个视角图通道提取的特征进行融合后得到3D物体的总特征,再经过半随机的超限学习机分类层进行有监督的学习,训练后得到网络的所有参数,预测网络模型即训练完成;2)3D物体识别:获得3D物体的多视角图,输入到预测网络模型,提取特征后,在分类层输出,在输出中找到概率最大的类别,即为网络的识别类型。2.根据权...

【专利技术属性】
技术研发人员:黄强王永雄谈咏东
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1