高维数据分类方法、装置及终端设备制造方法及图纸

技术编号:20161119 阅读:17 留言:0更新日期:2019-01-19 00:13
本发明专利技术适用于计算机技术领域,提供了一种高维数据分类方法及装置;其中,方法包括:获取预定数量的原始高维数据样本集,原始高维数据包括表征数据属性特征的特征值;对原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;基于特征降维处理后的高维数据子集,利用二进制乌鸦搜索进化算法对特征值进行筛选,获得最优特征子集;根据旋转森林算法对最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于训练数据集构建高维分类模型;根据高维分类模型对目标高维数据进行分类。本发明专利技术能够减少了计算成本,提高了对高维数据的分类精度。

【技术实现步骤摘要】
高维数据分类方法、装置及终端设备
本专利技术属于计算机
,尤其涉及一种高维数据分类方法、装置及终端设备。
技术介绍
随着互联网的普及以及信息技术的快速发展,每天在实际应用和生活中都会产生海量的数据,并且数据规模越来越大,维度越来越高。由于高维数据的普遍性和重要性,研究高维数据具有非常重要的意义。但是受高维数据所带来的“维度灾难”的影响,许多在低维数据上表现良好的分类方法运用在高维数据上时无法获得好的分类效果,因此,高维数据分类对传统的分类技术而言是新的挑战。同时,对于高维数据来说,并不是所有的数据特征有同等重要,高维数据中存在大量无用信息,大多数特征与分类任务不相关或相关度极低,即存在着大量冗余特征或不相关特征,而参与数据分类的有效特征只是占总体的很少一部分,因此,对数据进行特征降维和特征选择处理是实现高维数据分类的必要步骤。特征选择方法是从原始数据集中确定最有效的特征子集,从而减少计算成本,提高分类精度。目前常用的特征选择方法有三类:过滤法(Filter),封装法(Wrapper),嵌入法(Embedded)。过滤法利用数据自身的统计特性作为评价准则来选择特征子集,其分类准确率较低。封装法是在特征选择过程中应用特定的学习模型来评估所选择的特征子集,并依靠学习模型的准确性来指导搜索过程,虽然准确率优于过滤法,但时间复杂度较高。嵌入法则利用初始数据训练学习模型,并在该过程中完成特征选择。嵌入法主要优点在于与学习模型相互作用,但其时间复杂度同样较高。综上所述,目前对于高维数据的分类方法存在分类精度较低的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种高维数据分类方法、装置及终端设备,以解决现有技术中高维数据分类方法存在分类精度较低的问题。本专利技术实施例的第一方面提供了一种高维数据分类方法,包括:获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值;对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行筛选,获得最优特征子集;根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于所述训练数据集构建高维分类模型;根据所述高维分类模型对目标高维数据进行分类。本专利技术实施例的第二方面提供了一种高维数据分类装置,包括:数据获取模块,用于获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值;特征降维处理模块,用于对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;特征选择模块,用于基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行筛选,获得最优特征子集;模型构建模块,用于根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于所述训练数据集构建高维分类模型;分类模块,用于根据所述高维分类模型对目标高维数据进行分类。本专利技术实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值;对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行筛选,获得最优特征子集;根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于所述训练数据集构建高维分类模型;根据所述高维分类模型对目标高维数据进行分类。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值;对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行筛选,获得最优特征子集;根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于所述训练数据集构建高维分类模型;根据所述高维分类模型对目标高维数据进行分类。本专利技术实施例通过对原始高维数据进行特征降维处理,计算每个样本实例中各个特征与类别的相关性,得到每个样本特征权值并按降序排序,根据所述特征权值从特征集中选择出权值大的特征,剔除掉其它权重值较小的不相关或冗余特征,利用二进制乌鸦搜索进化算法对特征降维处理后的高维数据子集进行特征选择,获得最优特征子集,结合旋转森林算法对样本属性集进行随机分割组合,分割的各组子属性集间的数据进行特征变换,得到差异性较大的训练数据集,构成分类精度更高且泛化能力更强的集成分类模型,减少了计算成本,提高了对高维数据的分类精度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的高维数据分类方法的实现流程示意图;图2是本专利技术实施例二提供的高维数据分类方法的实现流程示意图;图3是本专利技术实施例提供的高维数据分类装置的示意图;图4是本专利技术实施例提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一图1示出了本专利技术实施例一提供的高维数据分类方法的实现流程示意图。如图1所示,该高维数据分类方法具体包括如下步骤S101至步骤S105。步骤S101:获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值。其中,所述原始高维数据集包括数据属性特征的特征值以及类别,且特征无缺失。步骤S102:对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集。可选地,采用ReliefF方法进行特征降维处理,剔除掉不相关或冗余特征。具体地,计算获取每个样本实例中各个特征与类别的相关性,得到每个样本特征权值并按降序排序,根据所述特征权值从特征集中选择出权值大的特征,剔除掉其它权重值较小的不相关或冗余特征。步骤S103:基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征本文档来自技高网...

【技术保护点】
1.一种高维数据分类方法,其特征在于,包括:获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值;对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行筛选,获得最优特征子集;根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于所述训练数据集构建高维分类模型;根据所述高维分类模型对目标高维数据进行分类。

【技术特征摘要】
1.一种高维数据分类方法,其特征在于,包括:获取预定数量的原始高维数据样本集,所述原始高维数据包括表征数据属性特征的特征值;对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集;基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行筛选,获得最优特征子集;根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合,对分割的各组子属性集间的数据进行特征变换,得到差异性大于预定阈值的训练数据集,基于所述训练数据集构建高维分类模型;根据所述高维分类模型对目标高维数据进行分类。2.根据权利要求1所述的高维数据分类方法,其特征在于,对所述原始高维数据样本集进行特征降维处理,得到特征降维处理后的高维数据子集,包括:从高维数据样本集X={X1,X2,...,Xn}中随机选择R个样本,基于所述R个样本中的任意一个样本Xi,首先找出k个与Xi同类的最近邻的样本Hj(Xi),然后在每个R不同类样本集中找出k个最近邻的样本Mj(C),最后更新每个特征的权重值w,权值更新公式如下:其中,Xi={Xi1,Xi2,...,Xim}表示第i个样本的m个属性值,m表示样本抽样次数,Mj(C)表示不同类别C中的第j个最近邻样本,P(C)表示C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别;其中,函数diff(A,Ri,Rj)用于计算样本Ri和Rj关于某个特征A间的距离,计算公式如下:3.根据权利要求1所述的高维数据分类方法,其特征在于,基于特征降维处理后的所述高维数据子集,利用二进制乌鸦搜索进化算法对所述特征值进行选择,从所述高维数据子集中获得最优特征子集,包括:对乌鸦搜索算法进行初始化控制参数设置,所述初始化控制参数包括种群群体数量M、感知概率AP、飞行长度fl以及最大迭代次数Maxiter;其中,在乌鸦搜索算法中,假定N只乌鸦随机分布在n维搜索空间中,xi,t=[x1i,t,x2i,t,…,xni,t](i=1,2,…,N;t=1,2,…,Maxiter)表示第i只乌鸦在第t次迭代时的位置,Mi,t表示乌鸦i在第t次迭代时隐藏食物的记忆值,即最优位置;APi,t表示乌鸦i在第t次迭代时的感知概率AP,fli,t表示乌鸦i在第t次迭代时的飞行长度;在第t次迭代时,乌鸦i随机选择一只乌鸦j跟踪以偷窃对方的食物;算法包括全局搜索和局部搜索两部分,通过感知概率AP进行动态调整以达到全局搜索和局部搜索的平衡状态;当随机生成数大于等于乌鸦感知概率AP时,乌鸦j知道乌鸦i跟踪它,会把乌鸦i带到任意位置,当随机生成数小于AP时,乌鸦j不知道乌鸦i跟踪它,则乌鸦i向乌鸦j的最优位置移动,位置更新的表达式如下:其中,APi,t表示乌鸦j在t代时的感知概率,ri和rj是[0,1]区间均匀分布的随机数;当乌鸦i的位置发生改变,则更新记忆值表达式如下:其中,Mi,t表示乌鸦记忆值,f(Mi,t)表示适应度值;对于二进制乌鸦搜索算法在离散空间内进行搜索,每个解表示为1或0,引入映射函数S(x)将连续空间的值转换到离散空间[0,1],计算公式如下:其中rand()为[0,1]区间均匀分布的随机数;映射函数S(x)表达式如下:适应度函数f(x)表达式如下所示:其中,ACCx表示数据X在集成分类模型上得到的分类精度,N表示特征总数,|Subset|表示选出的最优特征子集的特征数,α为调节分类精度和特征子集数量两部分的权重值,0<α<1;根据当达到最大迭代次数Maxiter时,所有乌鸦的Mi(i=1,2,…,N)中的位置为最优化问题的解,返回值为最优特征子集。4.根据权利要求1所述的高维数据分类方法,其特征在于,基于所述最优特征子集作为输入,利用旋转森林方法对样本属性集进行随机分割组合,分割的各组子属性集间的数据进行特征变换包括:将数据集划分成L个互不相交的子集,每个子集包括C=N/L个特征;其中Si,j表示Mi分类器训练集的第j个特征集合,对样本进行随机重采样,通过特征转换处理后得到tij(1),tij(2),…,tij(Cj);重复执行运行L次,构建L个主成分矩阵R:根据原始数据集重排矩阵R,得到相应的旋转矩阵R',则第Mi个分类器所对应的训练集为XRi';重复执行上述步骤K次,最终可得到对应不同分类模型的训练集XR1',XR2',…,XRk';针对不同参数和不同训练集,构建差异性大的分类模型...

【专利技术属性】
技术研发人员:马超
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1