基于特征选择的多模态数据分类方法技术

技术编号:20390722 阅读:87 留言:0更新日期:2019-02-20 03:11
本发明专利技术提供了一种基于特征选择的多模态数据分类方法,所述方法包括对多模态数据进行采集并处理,利用非线性核显式展开对数据进行展开表示,获得组合式高阶疾病特征,然后通过特征选择方法在高维特征空间中快速识别出关键的特征,构建集成学习模型,进行图像分类。本发明专利技术提供的方法能够充分利用了各模态中的数据信息,提升了分类准确率。

【技术实现步骤摘要】
基于特征选择的多模态数据分类方法
本专利技术属于计算机图像处理
,更具体地,涉及一种基于特征选择的多模态数据分类方法。
技术介绍
随着信息技术的快速发展,数字图像的数量得到了迅速的增长。图像分类是计算机视觉领域和图像处理领域的热门问题之一,图像分类的主要目的就是对图像进行识别,同时区分出不同种类的图像。然而,由于图像的质量和内容千差万别,产生多种数据类型的图像特征,因此,用户如何有效地在不同模态下的图像数据中找到同一类图像已成为研究热点。在互联网时代,每天都有大量的数据存在不同的模态出现在人们的日常生活中,例如,图像,视频,文本等等。由于不同信息资源的不同统计特性,发现不同模态之间的关系是非常重要的。多模学习可以相互提供补充信息,充分利用各个模态之间的内在关联性,因此,多模分类较单模态在准确率和可靠性方面通常能产生更好的性能。在现有的多模融合的应用领域,例如,阿尔兹海默症多模联合诊断较单模方法已经产生显著的成就;情感识别领域,利用多模态信息融合来识别情感就比单模态下更加准确可靠。因此,深入研究多模场景下的图像分类问题具有非常重要的理论意义和实用价值。现有的特征选择方法在中小规模情况下能够有效的识别出一阶关键特征。然而,当多模态数据的特征之间呈现出超高维特性,现有的特征选择方法很难有效的从海量的特征集合中识别相互紧密相关的特征子集。
技术实现思路
本专利技术的目的是针对低阶空间特征选择方法无法有效揭示多模态数据特征之间的高阶关联关系存在的问题,提供一种基于特征选择的多模态数据分类方法,不仅充分利用多模态数据之间的内在关联与互补信息,而且能够有效地从海量数据集中识别出最紧密相关的特征,最终可以达到更好分类效果。为了实现上述目的,本专利技术采用的技术方案是,基于特征选择的多模态数据分类方法,包括以下步骤:步骤1)、基于给定的多模态数据集提取各模态数据的特征信息;步骤2)、对步骤1)中提取的特征信息的维度进行扩展,将特征信息从低阶扩展为高阶得到高阶特征信息;步骤3)、构建基于多模态数据的特征选择模型,将经步骤2)得到的高阶特征信息输入到特征选择模型,选择出与类别标签(分类方法中默认有类别存在)关系紧密的特征子集;步骤4)、利用步骤3)得到的特征子集中的训练样本对各模态数据对应的子分类器进行训练;步骤5)、将经过步骤4)训练的所有子分类器构建为一个集成分类器,将多模态数据输入集成分类器中,输出最终分类结果。进一步的,步骤1)中所述的多模态数据及包括ADNI数据集和Office数据集,ADNI数据集包含三种模态MRI、PET和CSF下的数据;Office数据集包括mazon、dslr和webcam数据集;提取所有数据集的Surf和Decaf特征,并分别训练LeNet和AlexNet网络模型,获得Decaf-LeNet和Decaf-AlexNet特征。进一步的,步骤2)中所述的特征信息的维度扩展包括如下步骤:采用非线性核显式展开方法对特征信息间高阶关系进行线性表示,将初始的特征信息进行维度扩展,将特征信息从低阶映射到高阶空间中,获得组合式高阶特征信息。进一步的,所述步骤3)还包括采用CuttingPlane方法与整数规划相结合对选择出的特征子集进行更新,从中选择出关系最为紧密的高阶特征信息子集。进一步的,步骤4)中所述的各模态数据对应的子分类器训练包括如下步骤:利用训练样本对子分类器进行训练,优化特征选择的权重,将训练样本输入训练后的子分类器得到各个子分类器的分类结果。进一步的,步骤5)具体包括如下步骤:先采用最小二乘方法确定各子分类器的权重,然后将所有子分类器通过加权计算得到集成分类器。与现有技术相比,本专利技术至少具有以下有益效果,本专利技术采用非线性核显式展开方式对数据进行展开表示,获得组合式高阶特征,并从中识别出关系最为紧密的高阶特征子集;充分挖掘特征之间的高阶依赖关系;本专利技术构建了集成分类器,将所有子分类器集成为一个整体的分类器,提高了分类准确率;本专利技术基于特征选择的多模分类方法,本专利技术在多模分类中应用广泛,不仅可以实现对阿尔兹海默症患者与健康对照组更加准确地分类,同时也有利于对阿尔兹海默症患者的前期诊断治疗。本专利技术通过显性展开的方式,能够表达出特征之间的依赖关系,并形成组合式的多粒度特征,而传统的方法不能对高阶依赖关系进行表达,只能进行单粒度的特征的选择,无法揭示特征与特征之间的依赖关系,从而其精确度和性能受到限制,无法有效的从海量的特征集合中识别相互紧密相关的特征子集。进一步的,本专利技术的方法属于低复杂度的算法,即使在进行海量的特征集合识别中,也不需要占用大量的计算资源,对硬件的需求较低,节约运算资源;另外,与传统的集成方法相比,我们加入了特征选择的功能,这样能够有效消除噪音和负面因素的影响,使预测性能更加稳定有参考价值。附图说明图1是本专利技术的整体框架图。图2是基于CuttingPlane的多模特征选择流程图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好的理解本专利技术。图1是本专利技术基于特征选择的多模分类方法的框架图。在本实施例中,如图1所示,将三种模态MRI,PET,CSF作为输入数据。步骤1:构建初始的图像数据集。针对ADNI数据集和Office数据集,对数据进行预处理,提取它们特征信息。ADNI数据集是103*189,Office数据集包括:amazon是958*4096,dslr是157*4096,webcam是295*4096。步骤2:采用非线性核显式展开对特征间高阶关系进行线性表示,将初始的数据进行维度扩展,将低阶特征映射到高阶特征空间中,获得组合式高阶特征。步骤3:基于多模超高维数据的关键特征快速选择,从中选择出关系最为紧密的高阶特征子集。CuttingPlane方法主要思路是通过不断添加割平面并利用精确线性搜索实现算法的加速和优化。在CuttingPlane切片基础上,配合采用整数规划和最坏情况分析对选择特征子集进行更新。步骤4:利用训练样本对所述的模型进行训练,优化特征选择的权重,训练分类器,得到各个子分类器的预测结果。步骤5:构建多模分类集成学习模型,输出最终分类结果。集成模型是由多个子分类器模型组成的,每个子分类器都有自己的参数,不同的输入样本数据、权重、偏差及产生的预测值型。将多个不同的子分类器构建为一个集成分类器,并调整集成模型中各种参数。集成学习能够显著地提高系统的准确率和泛化能力。其中,所述的步骤2中具体包括:采用非线性核显式展开对特征间高阶关系进行线性表示,将步骤1所获得的数据进行维度扩展,将低阶特征映射到高阶特征空间中,获得组合式高阶疾病特征,并从中识别出与疾病关系最为紧密的高阶特征子集。针对d次多项式,多项式核定义为:k(x,y)=(γxTy+ρ)d令d=2,我们得到它的二次核函数的特殊情况。在使用多项式理论和重组后,由此可得,它的显式特征映射:对于多项式核展开式,特征的维数将以d呈指数级增加。当阶数d=2时,m是初始的特征维数,则扩展后的维数是(m+2)(m+1)/2。通常,当m=106时,扩展的维数大约1012。其中,所述的步骤3中具体包括:(3-1)基于CuttingPlane的多模特征选择模型:首先,引入一个特征选择向量d,所选的特本文档来自技高网...

【技术保护点】
1.基于特征选择的多模态数据分类方法,其特征在于,包括以下步骤:步骤1)、基于给定的多模态数据集提取各模态数据的特征信息;步骤2)、对步骤1)中提取的特征信息的维度进行扩展,将特征信息从低阶扩展为高阶得到高阶特征信息;步骤3)、构建基于多模态数据的特征选择模型,将经步骤2)得到的高阶特征信息输入到特征选择模型,选择出与类别标签关系紧密的特征子集;步骤4)、利用步骤3)得到的特征子集中的训练样本对各模态数据对应的子分类器进行训练;步骤5)、将经过步骤4)训练的所有子分类器构建为一个集成分类器,将多模态数据输入集成分类器中,输出最终分类结果。

【技术特征摘要】
1.基于特征选择的多模态数据分类方法,其特征在于,包括以下步骤:步骤1)、基于给定的多模态数据集提取各模态数据的特征信息;步骤2)、对步骤1)中提取的特征信息的维度进行扩展,将特征信息从低阶扩展为高阶得到高阶特征信息;步骤3)、构建基于多模态数据的特征选择模型,将经步骤2)得到的高阶特征信息输入到特征选择模型,选择出与类别标签关系紧密的特征子集;步骤4)、利用步骤3)得到的特征子集中的训练样本对各模态数据对应的子分类器进行训练;步骤5)、将经过步骤4)训练的所有子分类器构建为一个集成分类器,将多模态数据输入集成分类器中,输出最终分类结果。2.根据权利要求1所述的基于特征选择的多模态数据分类方法,其特征在于,步骤1)中所述的多模态数据及包括ADNI数据集和Office数据集,ADNI数据集包含三种模态MRI、PET和CSF下的数据;Office数据集包括mazon、dslr和webcam数据集;提取所有数据集的Surf和Decaf特征,并分别训练LeNet和AlexNet网络模型,获得Decaf-LeNet和...

【专利技术属性】
技术研发人员:邓万宇刘丹陈琳
申请(专利权)人:西安邮电大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1