一种基于张量模式的多源数据分类优化方法及系统技术方案

技术编号:13636252 阅读:240 留言:0更新日期:2016-09-02 23:29
本发明专利技术涉及一种基于张量模式的多源数据分类优化方法及系统,包括:步骤a:在Map‑reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。本发明专利技术可以有效提高分类模型的分类精度;且计算复杂度更低,保证分类模型能够识别张量数据中的冗余信息,进一步提高分类模型的分类速度。

【技术实现步骤摘要】

本专利技术属于模式识别
,尤其涉及一种基于张量模式的多源数据分类优化方法及系统
技术介绍
模式识别(Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别,这是模式识别的两个重要方面。随着计算机技术的不断发展,模式识别技术逐渐由向量数据向多维模型转变,问题描述的支持数据也由单视角数据过渡到多个视角数据,如医学科学,基于临床、免疫、影像、血常规、尿常规和个体/群体的基因组组等数据评价病人或居民的健康状况,这些数据之间相互信息补充。通常将描述同一个问题的多个视角的数据统称为多视角数据。大数据时代的环境下,描述问题的数据愈发丰富多元,常常从多个不同角度描述问题,如描述病人的健康状况,有影像数据,基因组数据,血常规数据,尿常规数据等等。根据不同视角数据之间存在信息互补作用的原理,有机整合这些多视角数据能够更全面地描述问题,进而提高疾病诊断的精度。由于张量模型能够有效表达数据的结构信息,数据的表达逐渐由传统的向量模式过渡到张量模式。在模式识别、计算机可视化和图像处理等研究领域,数据经常以张量模式储存,譬如,灰度图像是二阶张量(矩阵)、彩色图像是三阶张量等。不同于向量模式表示方法,张量模式表示能够储存更多向量模式无法表示的信息,如原始数据的结构信息、内在依赖性等。但是,现有张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不高。
技术实现思路
本专利技术提供了一种基于张量模式的多源数据分类优化方法及系统,旨在解决现有的张量模式表达的数据冗余信息导致现有张量分类算法的计算复杂度较高,且计算效率不高的技术问题。本专利技术实现方式如下,一种基于张量模式的多源数据分类优化方法,包括以下步骤:步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。本专利技术实施例采取的技术方案还包括:在所述步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:步骤a1:确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对;步骤a2:执行Map过程,输出x(1)和X(2)的键值对;步骤a3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对;步骤a5:reduce过程中,并行计算向量x(1)与X(2)的张量积运算:输出的键值对即为高阶张量的键值对。本专利技术实施例采取的技术方案还包括:所述步骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。本专利技术实施例采取的技术方案还包括:所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤:步骤b10:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;步骤b11:确定第N阶投影向量的(key-value);步骤b12:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;步骤b13:确定第N-1阶投影向量的(key-value);步骤b14:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;步骤b15:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;步骤b16:循环步骤b10至步骤b15,直到支持张量机分类模型收敛,获得支持张量机分类模型的投影张量和偏移标量。本专利技术实施例采取的技术方案还包括:在所述步骤b中,所述以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据具体包括以下步骤:步骤b20:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;步骤b21:确定保留特征的总数p(v);步骤b22:计算保留特征对应的权值数据步骤b23:对保留特征的秩确定(key-value),并计算各个保留特征的秩得分步骤b24:在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分步骤b25:在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);步骤b26:循环步骤b20至步骤b25,直到步骤b27:输出保留特征对应的下标数据本专利技术实施例采取的技术方案还包括:所述步骤c还包括:根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。本专利技术实施例采取的另一技术方案为:一种基于张量模式的多源数据分类优化系统,包括张量积运算模块、分类模型构建模块、特征消除模块、分类模型优化模块和数据分类模块;所述张量积运算模块用于在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据;所述分类模型构建模块用于根据高阶张量数据构建初始的支持张量机分类模型;所述特征消除模块用于以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;所述分类模型优化模块用于根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;所述数据分类模块用于将测试样本输入到支持张量机分类模型进行分类。本专利技术实施例采取的技术方案还包括:还包括交替投影算法模块,所述交替投影算法模块用于在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。本专利技术实施例采取的技术方案还包括:所述特征消除模块以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除的消除方式为:初始化保留特征的下标数据使保留特征的下标数据对应视角数据中的各个特征;确定保留特征的总数p(v);计算保留特征对应的权值数据对保留特征的秩确定(key-value),并计算各个保留特征的秩得分在Map-reduce分布式框架下遍历各秩的得分,寻找最小的秩得分在保留特征的下标数据中剔除秩得分最低特征对应的下标(i1,i2,…iN);并循环处理直到后,输出保留特征对应的下标数据本专利技术实施例采取的技术方案还包括:还包括信息剔除模块,所述信息剔除模块用于根据各视角数据保留特征的下标数据剔除测试样本的冗余信息。与现有技术相比,本专利技术的有本文档来自技高网
...

【技术保护点】
一种基于张量模式的多源数据分类优化方法,包括以下步骤:步骤a:在Map‑reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。

【技术特征摘要】
1.一种基于张量模式的多源数据分类优化方法,包括以下步骤:步骤a:在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据,并根据高阶张量数据构建初始的支持张量机分类模型;步骤b:以支持向量递归特征消除算法在原始空间进行各个视角数据的特征消除,输出各视角数据保留特征的下标数据;步骤c:根据各视角数据保留特征的下标数据对初始的支持张量机分类模型参数进行优化,确定最终的支持张量机分类模型;步骤d:将测试样本输入到支持张量机分类模型进行分类。2.根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,在所述步骤a中,所述在Map-reduce分布式框架下对多视角数据进行张量积运算,得到高阶张量数据的运算方式包括以下步骤:步骤a1:确定Map过程中向量模式数据x(1)和维数为I的向量特征&张量模式数据X(2)的键值对;步骤a2:执行Map过程,输出x(1)和X(2)的键值对;步骤a3:将Map操作后的结果通过MapReduce编程框架的shuffle阶段传输到Reduce阶段;步骤a4:确定reduce过程中的键值对;所述reduce的输入键值对为Map的输出键值对;步骤a5:reduce过程中,并行计算向量x(1)与X(2)的张量积运算:输出的键值对即为高阶张量的键值对。3.根据权利要求2所述的基于张量模式的多源数据分类优化方法,其特征在于,所述步骤b还包括:在Map-reduce分布式框架上根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数。4.根据权利要求3所述的基于张量模式的多源数据分类优化方法,其特征在于,所述根据交替投影算法迭代优化得出初始的支持张量机分类模型的最优参数的算法包括以下步骤:步骤b10:在Map-reduce分布式框架下初始化N阶张量中前(N-1)阶的投影向量,根据支持张量机分类模型求张量的第N阶投影向量;其中,N为高阶张量数据的阶数;步骤b11:确定第N阶投影向量的(key-value);步骤b12:在Map-reduce分布式框架下更新张量的第N阶投影向量,根据支持张量机分类模型求张量的第(N-1)阶投影向量;步骤b13:确定第N-1阶投影向量的(key-value);步骤b14:在Map-reduce分布式框架下更新张量的第(N-1)阶投影向量,根据支持张量机分类模型求张量的第(N-2)阶投影向量;步骤b15:在Map-reduce分布式框架下更新张量的第2阶投影向量,根据支持张量机分类模型求张量的第1阶投影向量;步骤b16:循环步骤b10至步骤b15,直到支持张量机分类模型收敛,获得支持张量机分类模型的投影张量和偏移标量。5.根据权利要求1所述的基于张量模式的多源数据分类优化方法,其特征在于,...

【专利技术属性】
技术研发人员:王书强刘志华胡勇郭毅可曾德威卢哲
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1