基于流形深度学习和极限学习机的图像集分类系统及方法技术方案

技术编号:20843997 阅读:17 留言:0更新日期:2019-04-13 08:53
本发明专利技术涉及一种基于流形深度学习和极限学习机的图像集分类系统及方法,其特征在于包括流形层,转换层,正交层,投影层,池化层,ELM层和输出层。其方法先用流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点,其次转换层通过线性映射将格拉斯曼流形中的正交矩阵转换为低维矩阵,第三正交层将低维矩阵形成格拉斯曼流形,第四通过投影层将格拉斯曼流形映射到欧氏空间,而后通过池化层融合不同训练分支的数据,同时降低数据特征映射的复杂性并控制训练的过拟合,最后通过ELM层训练并把训练的结果输出。本发明专利技术的网络结构相对简单并且更加有效,其不仅在精度上更加准确,而且在学习速度和测试速度上可实现实时在线。

【技术实现步骤摘要】
基于流形深度学习和极限学习机的图像集分类系统及方法
本专利技术涉及本专利技术涉及一种基于流形深度学习和极限学习机的图像集分类系统及方法。
技术介绍
近年来,随着移动互联网技术的发展,促进大数据时代的来临。海量数据的产生以及对这些数据的有效分析和挖掘成为急需解决的问题。以CNN为代表的深度学习技术在大规模样本数据为前提下,在的目标检测和识别方面取得了飞速发展。这些算法主要是将单幅图像作为基本分析单元。在实际的数据源中,存在大量的源于同一目标对象的视频图像序列或多视图图像集,图像集的图像能够从不同方面反映目标对象。传统的单视图图像通常采用欧式距离来衡量图像之间的相似性,没有考虑图像集对象的相互关系。而来源于同一目标对象的多视图图像具有天然的联系,如摄像机对同一目标对象从空间中不同角度获得的6视图、12视图,同一目标对象的视频序列等,这些视图之间可以认为是某一给定流形下通过某种变换关系相互得到。在流形假设条件下,同一目标的视图集在可以认为是嵌入在某种特定流形中的点,多视图集之间的相似性采用非欧式距离来度量,如在黎曼度量,Log-Euclideanmetric(LEM),在Grassmann(格拉斯曼)流形中的测地距离,主角等。Grassmann流形是由线性子空间构成的流形,在图像集识别中具有天然的优势。因此,将在欧式空间中的深度学习推广到流形空间中,不仅充分利用深度学习的强大学习能力,同时还能够充分利用图像集之间的相关性,从而可以获得更好的图像集识别率。
技术实现思路
本专利技术针对现有技术的不足,提供一种基于流形深度学习(DeepLearning)和极限学习机(ExtremeLearningMachine,ELM)的图像集分类系统及方法。本专利技术在Grassmann流形上构建深度学习网络来提取视图集的特征,并利用ELM网络图像集进行快速识别与分类;其网络结构相对简单并且更加有效,不仅在精度上更加准确,而且在学习速度和测试速度上可实现实时在线。为了达到上述目的,本专利技术一种基于流形深度学习和极限学习机的图像集分类系统,主要依次包括将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层,通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层,正交层,将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层,用于融合不同训练分支数据的池化层,用于加快网络训练并避免梯度下降迭代训练的ELM层,以及用于把训练结果输出的输出层;所述池化层还用于融合来自不同训练分支的数据,同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。该系统利用ELM(ExtremeLearningMachine)层实现快速分类,从而避免了深度学习的反复迭代的学习过程。优选地,所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性,以及融合来自不同训练分支的数据。基于流形深度学习和极限学习机的图像集分类方法,主要包括以下步骤:第一,通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点,目的是将源于同一目标对象的多视图图像子集表示为格拉斯曼流形中点;不同的目标对象的多视图图像子集表示为格拉斯曼流形中的不同点;第二,通过转换层将流形层中输入的格拉斯曼正交矩阵进行降维处理,得到新的低维矩阵;第三,通过正交层将转换层得到的低维矩阵进行正交化处理,得到格拉斯曼流形;第四,通过投影层将正交层得到的非欧氏空间中的格拉斯曼流形映射到欧氏空间,以为后续在欧氏空间中进行分类任务得以实施;第五,通过池化层将不同训练分支的数据进行融合,以降低格拉斯曼数据特征映射的复杂性,同时防止网络训练的参数过拟合;第六,通过ELM层避免梯度下降迭代训练,该层中包括隐含层、隐含层激活函数,其实现过程通过采用随机生成隐含层的权重和偏置,通过代数方式来计算隐含层的输出,避免了传统神经网络的梯度下降的迭代方式来更新网络权重,从而监控网络的训练速度;最后,通过输出层把训练的结果进行输出。优选地,所述第一步通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的过程是采用SVD分解多视图图像集矩阵来实现的。优选地,所述第三步中是采用QR分解来将低维矩阵进行正交化处理的。优选地,所述第七步中输出结果为多分类输出。该系统的网络结构相对简单并且更加有效,其不仅在精度上更加准确,而且在学习速度和测试速度上可实现实时在线。附图说明图1为本专利技术的结构示意图。其中,1为输入层,2为流形层,3为转化层,4为正交层,5为投影层,6为池化层,7为ELM层,8为输出层。具体实施方式以下结合附图和具体实施例对本专利技术进行详细描述,但不作为对本专利技术的限定。参照图1,本专利技术实施例一种基于流形深度学习和极限学习机的图像集分类系统,主要依次包括通过输入层1将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层2,通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层3,正交层4,将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层5,用于融合不同训练分支数据的池化层6,用于加快网络训练并避免梯度下降迭代训练的ELM层7,以及用于把训练结果输出的输出层8;所述池化层6还用于融合来自不同训练分支的数据,同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。该系统利用ELM(ExtremeLearningMachine)层实现快速分类,从而避免了深度学习的反复迭代的学习过程。所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性,以及融合来自不同训练分支的数据。基于流形深度学习和极限学习机的图像集分类方法,主要包括以下步骤:第一,通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点,此过程是采用SVD分解多视图图像集矩阵来实现的;目的是将源于同一目标对象的多视图图像子集表示为格拉斯曼流形中点;不同的目标对象的多视图图像子集表示为格拉斯曼流形中的不同点;第二,通过转换层将流形层中输入的格拉斯曼正交矩阵进行降维处理,得到新的低维矩阵;第三,通过正交层将转换层得到的低维矩阵采用QR分解进行正交化处理,得到格拉斯曼流形;第四,通过投影层将正交层得到的非欧氏空间中的格拉斯曼流形映射到欧氏空间,以为后续在欧氏空间中进行分类任务得以实施;第五,通过池化层将不同训练分支的数据进行融合,以降低格拉斯曼数据特征映射的复杂性,同时防止网络训练的参数过拟合;第六,通过ELM层避免梯度下降迭代训练,该层中包括隐含层、隐含层激活函数,其实现过程通过采用随机生成隐含层的权重和偏置,通过代数方式来计算隐含层的输出,避免了传统神经网络的梯度下降的迭代方式来更新网络权重,从而监控网络的训练速度;最后,通过输出层把训练的结果进行输出,该输出结果为多分类输出。在算法实现上,对于流形层,假设输入的图像集的每一目标对象有k副图像。整个图像集可以表示为X={x1,…,xk},其中xi表示第i个图像对象,用xi={r11,r12,…,r1n,r21,…,r2n,…,rm1,…,rmn}T来将xi表示为矢量形式。采用SVD分解来对图像集,即:[U,T,V]=svd(X)。其中X是n×k的正交矩阵。从而得到图像集X的线性子空间本文档来自技高网...

【技术保护点】
1.基于流形深度学习和极限学习机的图像集分类系统,其特征在于:主要依次包括将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层,通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层,正交层,将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层,用于融合不同训练分支数据的池化层,用于加快网络训练并避免梯度下降迭代训练的ELM层,以及用于把训练结果输出的输出层;所述池化层还用于融合来自不同训练分支的数据,同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。

【技术特征摘要】
1.基于流形深度学习和极限学习机的图像集分类系统,其特征在于:主要依次包括将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层,通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层,正交层,将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层,用于融合不同训练分支数据的池化层,用于加快网络训练并避免梯度下降迭代训练的ELM层,以及用于把训练结果输出的输出层;所述池化层还用于融合来自不同训练分支的数据,同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。2.根据权利要求1所述的基于流形深度学习和极限学习机的图像集分类系统,其特征在于:所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性,以及融合来自不同训练分支的数据。3.基于流形深度学习和极限学习机的图像集分类方法,其特征在于,主要包括以下步骤:第一,通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点;第二,通过转换层将流形层中输入的格拉斯曼...

【专利技术属性】
技术研发人员:雷方元戴青云蔡君赵慧民刘勋
申请(专利权)人:广东技术师范学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1