一种适用于高维大数据集的数据分类方法技术

技术编号：17779749 阅读：115 留言：0更新日期：2018-04-22 08:16

本发明专利技术公开了一种适用于高维大数据集的数据分类方法，本发明专利技术主要解决现有方法在处理高维大数据集时很难选取有效特征，因而收敛速度慢且准确率低的问题。其实现步骤是：1、输入训练样本数据集和测试样本数据集；2、对训练样本集进行采样；3、计算特征权重；4、用轮盘赌法选择特征；5、构建基决策树；6、获得随机森林模型在测试集上的分类结果。本发明专利技术将轮盘赌法应用于特征选择，在保证特征随机扰动的同时，使有用特征被抽取的概率更大，可应用于高维大数据集的分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于高维大数据集的数据分类方法
本专利技术属于计算机
，更进一步涉及数据分类
中一种适用于高维大数据集的数据分类方法。本专利技术可用于高维大数据的分类，以提高数据分类的准确率。
技术介绍
在过去的二十年里，人类收集、存储、传输、处理数据的能力取得了飞速提升，人们积累了越来越庞大和复杂的数据，因此，能有效对数据进行分析和利用的计算机算法是现今迫切需要的。同时，高维大数据量和稀疏冗余的特征使得数据挖掘的难度不断增大，一些传统的机器学习算法已经不能取得较好的效果或难以适用于当前的场景，这导致了高维大数据的挖掘具有很大的挑战性，也具有很大的提升空间。浪潮电子信息产业股份有限公司在其申请的专利文献“一种基于随机森林加权距离的大规模高维数据分类方法”(申请号：201510272419.7，公开号：CN104915679A)中公开了一种大规模高维数据的分类方法。该方法首先对训练样本利用随机森林算法计算各维度特征的重要性，用维度特征重要性数值来加权标准化距离，在此基础上利用k近邻算法进行分类。该方法存在的不足之处是：k近邻算法用于大规模高维数据集时计算量过大，算法复杂度高，另外，对于现实场景下的高维稀疏数据集，传统随机森林算法收敛速度和分类精度表现不佳，导致该算法的准确率下降。毛林、陆全华和程涛在其发表的论文“基于高维数据的集成逻辑回归分类算法的研究与应用”(科技通报,2013年12期)中提出一种大规模高维数据的分类方法。该方法首先对全部特征随机抽取多个特征集，并针对各个特征集构建多个逻辑回归模型。最后针对多个逻辑回归模型结果，利用集成学习方法进行最终预...
一种适用于高维大数据集的数据分类方法

【技术保护点】
一种适用于高维大数据集的数据分类方法，其特征在于，包括如下步骤：(1)输入训练样本数据集和测试样本数据集：(1a)输入一个包含两种及以上类别的高维大数据集，作为训练样本数据集；(1b)输入一个包含两种及以上类别的，与训练样本数据集特征相同的待分类的高维大数据集，作为测试样本数据集；(2)对训练样本集进行采样：(2a)采用自助采样法，从训练样本数据集中抽取与训练集样本数量相等的样本，作为抽样样本，放入一个采样集中；(2b)执行30次上述采样，得到30个采样集；(3)计算特征权重：(3a)利用基尼指数计算公式，分别计算每个采样集对应的特征集中所有特征的基尼指数；(3b)计算每个特征的基尼指数的倒数：(3c)对每个特征的基尼指数的倒数进行归一化处理，得到各特征的权重值；(4)用轮盘赌法选择特征：(4a)按照下式，计算所有采样集中每一个特征的累积权重值：

【技术特征摘要】
1.一种适用于高维大数据集的数据分类方法，其特征在于，包括如下步骤：(1)输入训练样本数据集和测试样本数据集：(1a)输入一个包含两种及以上类别的高维大数据集，作为训练样本数据集；(1b)输入一个包含两种及以上类别的，与训练样本数据集特征相同的待分类的高维大数据集，作为测试样本数据集；(2)对训练样本集进行采样：(2a)采用自助采样法，从训练样本数据集中抽取与训练集样本数量相等的样本，作为抽样样本，放入一个采样集中；(2b)执行30次上述采样，得到30个采样集；(3)计算特征权重：(3a)利用基尼指数计算公式，分别计算每个采样集对应的特征集中所有特征的基尼指数；(3b)计算每个特征的基尼指数的倒数：(3c)对每个特征的基尼指数的倒数进行归一化处理，得到各特征的权重值；(4)用轮盘赌法选择特征：(4a)按照下式，计算所有采样集中每一个特征的累积权重值：其中，q(i)表示第D个采样集中第i个特征的累积权重值，∑表示求和操作，W(D,j)表示第D个采样集中第j个特征的权重值；(4b)在[0,1]区间内随机选择一个均匀分布的伪随机数；(4c)判断所选伪随机数是否小于当前采样集中第一个特征的累积权重值，若是，则执行步骤(4d)，否则，执行步骤(4e)；(4d)将当前采样集中的第一个特征放入当前采样集的特征子集中；(4e)判断所选伪随机数是否处于当前特征的累积权重值与当前特征的前一个特征的累积权重值之间，若是，则执行步骤(4g)，否则，执行步骤(4f)；(4f)用当前特征的下一个特征作为当前特征，执行步骤(4e)；(4g)将当前特征放入当前采样集的特征子集中；(4h)按照下式，计算当前采样集的特征子集的容量：k＝log2n其中，k表示当前采样集的特征子集的容量，log2·表示以2为底的对数操作，n表示采样集的特征总...

【专利技术属性】
技术研发人员：宋彬，张颖，张悦，郭洁，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人