高维数据的分类算法制造技术

技术编号:16428351 阅读:109 留言:0更新日期:2017-10-21 23:50
本发明专利技术提出高维数据的分类算法:本发明专利技术提供了高维数据的分类算法:包含有随机森林算法、Fores Texter算法、GW‑SRF算法,层次树中每个节点都能进行学习和多类标预测,父节点学习的预测类标可以传递和继承给子节点,节点间的类标传递模式能够有效地对多类标数据进行分类,并且自动发现类标之间的关系。在多类标数据上的实验结果表明ML‑Tree算法的分类结果明显优于传统算法,设计新颖,是一项很好的设计方案,很有市场推广前景,而且感观性能优。

Classification algorithm for high dimensional data

The invention proposes classification algorithm for high dimensional data: this invention provides a classification algorithm for high dimensional data: contains a random forest algorithm, Fores Texter algorithm, GW SRF algorithm, each node in the hierarchical tree of learning and multi label learning prediction prediction, parent node label can transfer and inheritance to sub node, inter node label transfer mode can effectively classify multi label data, and found the relationship between automatic label. In the multi label data. The experimental results show that the classification results of ML Tree algorithm is obviously superior to the traditional algorithm, the design is novel, is a very good design, good market prospect, and the sense of good performance.

【技术实现步骤摘要】
高维数据的分类算法
本专利技术涉及数据处理领域,尤其高维数据的分类算法。
技术介绍
随着互联网和物联网等科学技术的飞速发展,许多实际应用产生的数据规模越来越大,维度越来越高,由于高维数据的普遍性和重要性,研究高维数据挖掘具有非常重要的意义,因而在学术界引起了高维数据挖掘研究热潮的兴起,目前研究的热点主要集中在高维数据分类上,由于受维度效应的影响,许多在低维数据上表现良好的分类方法运用在高维数据上时无法获得好的分类效果,因此,高维数据分类对传统的分类技术而言是新的挑战,高维数据分类具有重要的意义,其能帮助人们自动分类数据所属的类别,譬如,新闻文本的自动分类,基因表达的所属功能的自动判别,网络营销中不同兴趣用户的区分,舆情分析中有用信息的过滤等,然而对于高维数据的分类问题,目前的研究结果和技术还很少,高维数据分类存在许多研究问题需要解决,因此,针对高维数据分类展开研究,主要考虑多噪音属性的高维数据分类问题、多领域转移学习问题、多类标学习问题、多实例多类标学习问题,提出系列算法来解决这四个研究问题,随机森林是一种高效的分类方法,但是基于随机采样的随机森林方法不能有效处理高维数据的子空间选择问题,因此,本章提出了一种新的分层抽样子空间选择方法,该方法结合了强属性集和弱属性集进行随机森林子空间采样,实验结果证明,分层随机森林方法能够比其他随机森林算法获得更好的分类性能,为高维数据分类提供了一种有效的方法,针对多噪音属性的高维数据分类问题提出了基于分层抽样的随机森林算法,通过总结多噪音属性的高维数据分类研究问题,以及分析随机采样子空间选择方法不足的基础上,提出了研究的分层抽样子空间选择方法,文中针对具体不同的高维数据分类问题,提出了相应的分层抽样随机森林算法,针对多噪音属性的高维数据分类,提出了SRF算法,该方法能够有效处理基因、图像等高维数据分类;针对不平衡文本数据分类,提出了ForesTexter算法,该方法有效提高不平衡数据中小类类别的分类精度;针对全基因组数据分析,提出了GWA-SRF算法,该方法避免了穷举搜素最优子空间大小的计算代价,同时能够自动计算属性重要性和发现与研究疾病相关的重要属性,随机森林(RandomForest)是一个基于子空间选择构建多个决策树分类器的集成学习方法,大量实验研究已经证明,与传统的决策树等分类算法相比,随机森林具有更强的泛化能力和更好的分类效果,随机森林在生物信息学]和计算机视觉等领域有着广泛的应用,随机森林算法的优化理论研究[80–82]和应用研究已经成为当前数据挖掘的研究热点,随机森林的一个核心步骤是对于每个节点选择不同的属性子空间来构建决策树,目前,研究学者已经提出了不同的子空间选择方法,其中随机选择子空间的策略是最常用的方法,随机森林的分类性能取决于每个决策树的分类准确度,以及多个决策树之间的分类多样性,Breiman分析了随机森林的分类误差,证明了其分类性能取决于多个决策树的平均强度和平均相关度,Breiman指出随机森林的泛化误差等于决策树平均强度除以平均相关度的平方,高维数据大部分的属性可能与待分类的类别不相关,随机的方法所选择的许多子空间可能并不包含有信息的属性,因此,基于这些子空间中生成的决策树可能会导致其平均强度的减少,从而增加了随机森林的泛化误差界,本章的目的是提出一种分层采样的方法来选择属性子空间,该方法主要是针对高维数据的,其基本思想是引入一个分层变量对数据集的特征属性划分为两组:一组包含强信息的属性,另一组包含弱信息的属性,然后,从每组属性集中各自随机选择一部分属性,以确保能够包含每个属性组有代表性的属性,这种方法可以保证对高维数据选择子空间时,每个子空间能够包含足够的有信息属性,从而提高随机森林对于高维数据的分类性能,综上所述,特别需要高维数据的分类算法,以满足社会发展的需求。
技术实现思路
本专利技术的目的是提供高维数据的分类算法,节点间的类标传递模式能够有效地对多类标数据进行分类,并且自动发现类标之间的关系,在多类标数据上的实验结果表明ML-Tree算法的分类结果明显优于传统算法。本专利技术为解决其技术问题所采用的技术方案是:本专利技术提供了高维数据的分类算法:包含有随机森林算法、ForesTexter算法、GW-SRF算法;随机森林是一种决策树集成学习模型,随机森林的算法流程可以描述如下:1).首先用Bagging抽样方法对训练数据集X进行可放回的采样(Samplewithreplacement),得到K个数据子集{X1,X2,...,XK};2).对于每一个训练数据子集Xk,使用CART[91]方法构建一个决策树,对于决策树的每个节点,随机从属性空间S中选择p个属性(p≤N)作为一组属性子集(属性子空间),然后根据这p个属性,计算其所有的分裂点的Gini值,其中,最好的分裂点(即最大的Gini准则)将选取作为决策树节点的分裂点,该分裂过程一直迭代直到能够满足停止条件:即所有训练样本都属于同一个类别,或者所有属性都是相同的值,或者训练数据集包含的样本数已经少于设定的阀值nmin;3).随机森林中的K个决策树h1(X1),h1(X1),h1(X1),h1(X1)都按不剪枝的方式构建,随机森林的分类输出类别由K个决策树集成在一起输出的类别的众数而定;在理论分析方面,Breiman提出了随机森林的误差界,该误差界是由多样性Correlation(ρ)和强度Strength(s)两个因素决定的,假设X代表训练数据集Y代表学习类标,随机森林的树的数目为K,基于从训练集X抽样得到的Xk构建的第k个决策树为hx(Xk),给定xi∈X,xi关于类别j的out-of-bag值为其中I(·)是指示函数,Q(xi,j)代表的是没有包含样本xi的决策树中将xi划分为类标j的比例,根据Q(xi,j),随机森林的强度可以定义如下:其中n代表样本数,yi代表xi的真实类标,随机森林的相关性可以定义如下:其中以及这里,代表除了正确的类别外得到最多票数的类别,根据随机森林的强度s以及相关度ρ,可以估计其out-of-bag误差界c/s2,计算公式为c/s2=ρ/s2。优选的,ForesTexter算法文本数据通常用bagofwords模型来表示,每一个文本样本表示为一个特征词向量,每一个属性是一个特征词,一个文本样本中只包含一部分少量的特征词,因此,文本数据是高维稀疏的,在处理高维稀疏的文本数据时,大部分特征词是不出现不相关的,因此需要使用特征选择的方法选择与样本相关的特征词,现有研究表明,特征选择方法能够有效提高kNN,LLSF和NaiveBayes算法对高维文本数据的分类精度,Yang和Pedersen实验分析了InformationGain(IG),MutualInformation(MI),和χ2statistics等多种基于文本数据的特征选择方法;假设T是一个包含N个属性(特征词){t1,t2,...,tN}的属性集,c是一个两类分类问题的正类,A1代表特征词ti和类别c共同出现的次数,A4代表两者ti和c没有共现的次数,A2代表ti出现时候c没有出现的次数,A3代表类别c出现时候ti没有出现的次数,根据上述(A1,A2,A3,A4)的值,可以将特征词分成两组(一组包本文档来自技高网
...
高维数据的分类算法

【技术保护点】
高维数据的分类算法:其特征在于:本专利技术提供了高维数据的分类算法:包含有随机森林算法、Fores Texter算法、GW‑SRF算法;随机森林是一种决策树集成学习模型,随机森林的算法流程可以描述如下:1).首先用Bagging抽样方法对训练数据集X进行可放回的采样(Sample withreplacement),得到K个数据子集{X1,X2,...,XK};2).对于每一个训练数据子集Xk,使用CART[91]方法构建一个决策树,对于决策树的每个节点,随机从属性空间S中选择p个属性(p≤N)作为一组属性子集(属性子空间),然后根据这p个属性,计算其所有的分裂点的Gini值,其中,最好的分裂点(即最大的Gini准则)将选取作为决策树节点的分裂点,该分裂过程一直迭代直到能够满足停止条件:即所有训练样本都属于同一个类别,或者所有属性都是相同的值,或者训练数据集包含的样本数已经少于设定的阀值nmin;3).随机森林中的K个决策树h1(X1),h1(X1),h1(X1),h1(X1)都按不剪枝的方式构建,随机森林的分类输出类别由K个决策树集成在一起输出的类别的众数而定;在理论分析方面,Breiman提出了随机森林的误差界,该误差界是由多样性Correlation(ρ)和强度Strength(s)两个因素决定的,假设X代表训练数据集Y代表学习类标,随机森林的树的数目为K,基于从训练集X抽样得到的Xk构建的第k个决策树为hx(Xk),给定xi∈X,xi关于类别j的out‑of‑bag值为...

【技术特征摘要】
1.高维数据的分类算法:其特征在于:本发明提供了高维数据的分类算法:包含有随机森林算法、ForesTexter算法、GW-SRF算法;随机森林是一种决策树集成学习模型,随机森林的算法流程可以描述如下:1).首先用Bagging抽样方法对训练数据集X进行可放回的采样(Samplewithreplacement),得到K个数据子集{X1,X2,...,XK};2).对于每一个训练数据子集Xk,使用CART[91]方法构建一个决策树,对于决策树的每个节点,随机从属性空间S中选择p个属性(p≤N)作为一组属性子集(属性子空间),然后根据这p个属性,计算其所有的分裂点的Gini值,其中,最好的分裂点(即最大的Gini准则)将选取作为决策树节点的分裂点,该分裂过程一直迭代直到能够满足停止条件:即所有训练样本都属于同一个类别,或者所有属性都是相同的值,或者训练数据集包含的样本数已经少于设定的阀值nmin;3).随机森林中的K个决策树h1(X1),h1(X1),h1(X1),h1(X1)都按不剪枝的方式构建,随机森林的分类输出类别由K个决策树集成在一起输出的类别的众数而定;在理论分析方面,Breiman提出了随机森林的误差界,该误差界是由多样性Correlation(ρ)和强度Strength(s)两个因素决定的,假设X代表训练数据集Y代表学习类标,随机森林的树的数目为K,基于从训练集X抽样得到的Xk构建的第k个决策树为hx(Xk),给定xi∈X,xi关于类别j的out-of-bag值为其中I(·)是指示函数,Q(xi,j)代表的是没有包含样本xi的决策树中将xi划分为类标j的比例,根据Q(xi,j),随机森林的强度可以定义如下:其中n代表样本数,yi代表xi的真实类标,随机森林的相关性可以定义如下:其中以及这里,代表除了正确的类别外得到最多票数的类别,根据随机森林的强度s以及相关度ρ,可以估计其out-of-bag误差界c/s2,计算公式为c/s2=ρ/s2。2.根据权利要求1所述的高维数据的分类算法,其特征在于:ForesTexter算法文本数据通常用bagofwords模型来表示,每一个文本样本表示为一个特征词向量,每一个属性是一个特征词,一个文本样本中只包含一部分少量的特征词,因此,文本数据是高维稀疏的,在处理高维稀疏的文本数据时,大部分特征词是不出现不相关的,因此需要使用特征选择的方法选择与样本相关的特征词,现有研究表明,特征选择方法能够有效提高kNN,LLSF和NaiveBayes算法对高维文本数据的分类精度,Yang和Pedersen实验分析了InformationGain(IG),MutualInformation(MI),和χ2statistics等多种基于文本数据的特征选择方法;假设T是一个包含N个属性(特征词){t1,t2,...,tN}的属性集,c是一个两类分类问题的正类,A1代表特征词ti和类别c共同出现的次数,A4代表两者ti和c没有共现的次数,A2代表ti出现时候c没有出现的次数,A3代表类别c出现时候ti没有出现的次数,根据上述(A1,A2,A3,A4)的值,可以将特征词分成两组(一组包含正例属性,另一组包含负例属性),给定一个特征词ti,(A1,A2,A3,A4)代表ti和类标属性Y的关系,可以定义如下指示函数sign(ti,c)来判定特征词ti是正例属性还是负例属性:当A1A4-A2A3≥0时候,该指示函数的值为正,否则为负,在文献中,Zheng等人结合正例属性和负例属性对不平衡文本数据进行分类,得到了较好的分类效果,进一步提出了基于正例属性和负例属性分布进行分层抽样的方法,该方法使用χ2统计的方法计算正例属性和负例属性的分布,具体地,特征词ti相对于类别c的χ2统计可以形式化地定义如下:其中N是所有文本样本数量,基于正例属性和负例属性的χ2分布,可以将属性集T划分为两个子集:Tp和Tn(针对类别c),使得T=Tp∪Tn以及Tp∩满足:Tp={ti∈T|sign(ti,c)ispositive}以及Tn={ti∈T|sign(ti,c)isnegative}假设Np代表Tp的属性数量,Nn代表Tn的属性数量,则所有属性的数量N=Np+Nn,假设Tp中属性为{t1,t2,...,tNp},Tn中属性为{tNp+1,...,tNp+Nn};定义一个非负φ函数作为评价特征词ti相对于类别c的信息量,φ可以用χ2公式计算,根据φ的计算值,我们可以对正例属性ti∈Tp的φi值进行归一化;另一方面,负例属性的φ的归一化如下:归一化后θi的值范围在0到1之间,基于归一化后所得到的权重值,可以对不同特征值根据不同权重值分别对待,其中,权重越大代表该属性与分类任务的相关性越强,在使用分层抽样方法选择一个大小为mtry(>1)的属性子空间是,我们根据属性的权重值分别从正属性集Tp和负属性集Tn中进行加权选择,其中,从Tp和Tn中选择的属性数量与它们的大小成正比,即从Tp中选择mtrys=mtry×NpN个属性,并且从Tn中选择mtryn=mtry-mtrys个属性,然后将选择的属性合并作为随机森林节点中的属性子空间,基于分层抽样的属性子空间选择方法能够保证子空间中包含来自正属性集合负属性集合的重要属性,基于分层抽样属性子空间选择的过程如下:(i)将属性集T划分为正属性集Tp和负属性集Tn;(ii)使用χ2统计作为φ函数计算各个特征词的权重值,对Tp和Tn中属性根据其φ值分别进行归一化;(iii)从Tp加权抽样mtrys=mtry×NpN个属性,从Tn加权抽样mtryn=mtry-mtrys个属性,然后合并所选择的属性作为随机森林节点上的属性子空间,其中子空间大小为mtry=mtryp+mtryn。3.根据权利要求1所述的高维数据的分类算法,其特征在于:基于分层抽样的子空间选择方法首先把属性集分成多个属性子集,假设属性子集的数量为:gtry,在每个属性子集中选择的属性数量为vtry,其中vtry=log2N+1,假设属性集包含N个特征属性{X1,X2,...,XN},属性集用A表示,Y是类别属性,考虑一个非负函数φi,该函数度量属性Xi相对于类别Y的信息值,使用χ2统计或信息增益计算φ,χ2统计和信息增益可以形式化地定义如下:

【专利技术属性】
技术研发人员:李臻
申请(专利权)人:上海市玻森数据科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1