一种适用于高维大数据集的数据分类方法技术

技术编号:17779749 阅读:115 留言:0更新日期:2018-04-22 08:16
本发明专利技术公开了一种适用于高维大数据集的数据分类方法,本发明专利技术主要解决现有方法在处理高维大数据集时很难选取有效特征,因而收敛速度慢且准确率低的问题。其实现步骤是:1、输入训练样本数据集和测试样本数据集;2、对训练样本集进行采样;3、计算特征权重;4、用轮盘赌法选择特征;5、构建基决策树;6、获得随机森林模型在测试集上的分类结果。本发明专利技术将轮盘赌法应用于特征选择,在保证特征随机扰动的同时,使有用特征被抽取的概率更大,可应用于高维大数据集的分类。

【技术实现步骤摘要】
一种适用于高维大数据集的数据分类方法
本专利技术属于计算机
,更进一步涉及数据分类
中一种适用于高维大数据集的数据分类方法。本专利技术可用于高维大数据的分类,以提高数据分类的准确率。
技术介绍
在过去的二十年里,人类收集、存储、传输、处理数据的能力取得了飞速提升,人们积累了越来越庞大和复杂的数据,因此,能有效对数据进行分析和利用的计算机算法是现今迫切需要的。同时,高维大数据量和稀疏冗余的特征使得数据挖掘的难度不断增大,一些传统的机器学习算法已经不能取得较好的效果或难以适用于当前的场景,这导致了高维大数据的挖掘具有很大的挑战性,也具有很大的提升空间。浪潮电子信息产业股份有限公司在其申请的专利文献“一种基于随机森林加权距离的大规模高维数据分类方法”(申请号:201510272419.7,公开号:CN104915679A)中公开了一种大规模高维数据的分类方法。该方法首先对训练样本利用随机森林算法计算各维度特征的重要性,用维度特征重要性数值来加权标准化距离,在此基础上利用k近邻算法进行分类。该方法存在的不足之处是:k近邻算法用于大规模高维数据集时计算量过大,算法复杂度高,另外,对于现实场景下的高维稀疏数据集,传统随机森林算法收敛速度和分类精度表现不佳,导致该算法的准确率下降。毛林、陆全华和程涛在其发表的论文“基于高维数据的集成逻辑回归分类算法的研究与应用”(科技通报,2013年12期)中提出一种大规模高维数据的分类方法。该方法首先对全部特征随机抽取多个特征集,并针对各个特征集构建多个逻辑回归模型。最后针对多个逻辑回归模型结果,利用集成学习方法进行最终预测。该方法存在的不足之处是:由于高维大数据集特征的冗余性和稀疏性,随机的特征抽取很难选到有用的特征的问题,导致多数基分类器性能不佳,算法准确率不理想,且直接进行集成学习使得基学习器相似性高,容易过拟合。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足,提出一种适用于高维大数据集的数据分类方法,在保证高维大数据下算法收敛速度的同时尽可能的提高分类精度。实现本专利技术目的的具体思路是:依据高维稀疏数据集的特点,优化传统随机森林算法的特征选择方式,提高基决策树的分类能力及整体算法的性能。实现本专利技术目的的具体步骤如下:(1)输入训练样本数据集和测试样本数据集:(1a)输入一个包含两种及以上类别的高维大数据集,作为训练样本数据集;(1b)输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集,作为测试样本数据集;(2)对训练样本集进行采样:(2a)采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中;(2b)执行30次上述采样,得到30个采样集;(3)计算特征权重:(3a)利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数;(3b)计算每个特征的基尼指数的倒数:(3c)对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重值;(4)用轮盘赌法选择特征:(4a)按照下式,计算所有采样集中每一个特征的累积权重值:其中,q(i)表示第D个采样集中第i个特征的累积权重值,Σ表示求和操作,W(D,j)表示第D个采样集中第j个特征的权重值;(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数;(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值,若是,则执行步骤(4d),否则,执行步骤(4e);(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中;(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间,若是,则执行步骤(4g),否则,执行步骤(4f);(4f)用当前特征的下一个特征作为当前特征,执行步骤(4e);(4g)将当前特征放入当前采样集的特征子集中;(4h)按照下式,计算当前采样集的特征子集的容量:k=log2n其中,k表示当前采样集的特征子集的容量,log2·表示以2为底的对数操作,n表示采样集的特征总数;(4i)判断当前特征子集中的特征总数是否等于特征子集的容量,若是,执行步骤(5),否则,执行步骤(4b);(5)构建基决策树:采用主流方法CART决策树算法,构建30个与采样集及其特征子集对应的基决策树;(6)获得随机森林模型在测试集上的分类结果:(6a)利用集成公式,对30个基决策树进行集成,得到高维大数据集的随机森林模型公式;(6b)将测试样本集输入到高维大数据集的随机森林模型中进行分类,得到分类结果;(6c)输出分类结果。本专利技术与现有方法相比具有如下优点:第1,由于本专利技术通过计算特征权重,为特征选择提供依据,将基尼指数的倒数作为特征权重,权重越大,则集合的纯度越高,使得构建基决策树时能够有指导性的建树,克服了现有技术由于高维大数据集特征的冗余性和稀疏性,随机的特征抽取很难选到有用的特征的问题,使得本专利技术提高了高维大数据集下分类器的分类精度及收敛速度。第2,由于本专利技术引入用轮盘赌法选择特征,在构建基决策树时增加了随机扰动,使得特征被选择的可能性与特征权重成正比,从而克服了现有技术直接进行集成学习使得基学习器相似性高,容易过拟合的问题,使得本专利技术保证了高维大数据集下分类器的稳定性和鲁棒性。附图说明图1为本专利技术的流程图。具体实施方式下面结合附图1,对本专利技术的步骤作进一步的详细描述。步骤1,输入训练样本数据集和测试样本数据集。输入一个包含两种及以上类别的高维大数据集作为训练样本数据集。输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集作为测试样本数据集。本专利技术的实施例中,输入的一个包含两种及以上类别的高维大数据集是从UCI数据库中的标准测试数据集Mushroom数据集(http://archive.ics.uci.edu/ml/datasets/Mushroom)下载得到,抽取70%数据作为训练样本数据集,30%作为测试样本数据集。步骤2,对训练样本集进行采样。采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中。执行30次上述采样,得到30个采样集。步骤3,计算特征权重。利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数。所述的基尼指数计算公式如下:其中,Gini(D,i)表示第D个采样集中第i个特征的基尼指数,V表示第i个特征对第D个采样集进行分类后得到的子集总数,s表示第i个特征对第D个采样集进行分类后得到的第v个子集中的样本总数,|·|表示绝对值操作,t表示采样集的样本总数,R表示采样集的类别总数,c表示第v个子集中第r类样本的样本总数。计算每个特征的基尼指数的倒数。对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重。所述的归一化处理是按照下式实现的:其中,W(D,i)表示第D个采样集中第i个特征的权重值,G表示第i个特征的基尼指数的倒数,n表示采样集的特征总数。步骤4,用轮盘赌法选择特征。第1步,按照下式,计算所有采样集中每一个特征的累积权重值:其中,q(i)表示第D个采样集中第i个特征的累积权重值,Σ表示求和操作,W(D,j)表示第D个采样集中第j个特征的权重值。第2步,在[0,1]区间内随机选择本文档来自技高网
...
一种适用于高维大数据集的数据分类方法

【技术保护点】
一种适用于高维大数据集的数据分类方法,其特征在于,包括如下步骤:(1)输入训练样本数据集和测试样本数据集:(1a)输入一个包含两种及以上类别的高维大数据集,作为训练样本数据集;(1b)输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集,作为测试样本数据集;(2)对训练样本集进行采样:(2a)采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中;(2b)执行30次上述采样,得到30个采样集;(3)计算特征权重:(3a)利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数;(3b)计算每个特征的基尼指数的倒数:(3c)对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重值;(4)用轮盘赌法选择特征:(4a)按照下式,计算所有采样集中每一个特征的累积权重值:

【技术特征摘要】
1.一种适用于高维大数据集的数据分类方法,其特征在于,包括如下步骤:(1)输入训练样本数据集和测试样本数据集:(1a)输入一个包含两种及以上类别的高维大数据集,作为训练样本数据集;(1b)输入一个包含两种及以上类别的,与训练样本数据集特征相同的待分类的高维大数据集,作为测试样本数据集;(2)对训练样本集进行采样:(2a)采用自助采样法,从训练样本数据集中抽取与训练集样本数量相等的样本,作为抽样样本,放入一个采样集中;(2b)执行30次上述采样,得到30个采样集;(3)计算特征权重:(3a)利用基尼指数计算公式,分别计算每个采样集对应的特征集中所有特征的基尼指数;(3b)计算每个特征的基尼指数的倒数:(3c)对每个特征的基尼指数的倒数进行归一化处理,得到各特征的权重值;(4)用轮盘赌法选择特征:(4a)按照下式,计算所有采样集中每一个特征的累积权重值:其中,q(i)表示第D个采样集中第i个特征的累积权重值,∑表示求和操作,W(D,j)表示第D个采样集中第j个特征的权重值;(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数;(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值,若是,则执行步骤(4d),否则,执行步骤(4e);(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中;(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间,若是,则执行步骤(4g),否则,执行步骤(4f);(4f)用当前特征的下一个特征作为当前特征,执行步骤(4e);(4g)将当前特征放入当前采样集的特征子集中;(4h)按照下式,计算当前采样集的特征子集的容量:k=log2n其中,k表示当前采样集的特征子集的容量,log2·表示以2为底的对数操作,n表示采样集的特征总...

【专利技术属性】
技术研发人员:宋彬张颖张悦郭洁
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1