一种针对不均衡数据的算法推荐方法技术

技术编号:21185421 阅读:62 留言:0更新日期:2019-05-22 16:03
本发明专利技术公开了一种针对不均衡数据的算法推荐方法,使用特征提取方法提取数据集的特征并对每一维特征分别进行标准化,从而得到数据集的元特征。然后使用AUC,Recall以及算法的运行时间来评估候选算法的性能。在收集元目标时,获取候选算法在不均衡数据集上的性能指标,对候选算法排序,并使用得分的方法将三个候选算法序列进行融合,最终得到元目标,即候选算法的排序序列。在给新数据集推荐算法时,通过特征提取方法获取新数据集的特征向量,使用标准化方法,对新数据集的特征向量进行标准化。然后使用KNN方法获取新数据集的K个近邻的候选算法序列,通过将这K个邻居的候选算法序列加和并重新排序,就得到了新数据集的候选算法序列。

An Algorithmic Recommendation Method for Unbalanced Data

The invention discloses an algorithm recommendation method for unbalanced data. The feature extraction method is used to extract the features of data sets and standardize each dimension feature separately to obtain the meta-features of data sets. Then, AUC, Recall and the running time of the algorithm are used to evaluate the performance of the candidate algorithm. When collecting meta-targets, the performance indicators of candidate algorithms on unbalanced data sets are obtained, and the candidate algorithms are sorted. The three candidate algorithms are fused by scoring method, and the meta-targets, i.e. the sorting sequence of candidate algorithms, are finally obtained. When recommending algorithms to new data sets, feature vectors of new data sets are obtained by feature extraction method, and the feature vectors of new data sets are standardized by standardization method. Then KNN method is used to obtain the candidate algorithm sequences of K neighbors of the new data set. By adding and reordering the candidate algorithm sequences of K neighbors, the candidate algorithm sequences of the new data set are obtained.

【技术实现步骤摘要】
一种针对不均衡数据的算法推荐方法
本专利技术涉及算法推荐
,特别涉及一种针对不均衡数据的算法推荐方法。
技术介绍
随着从数据中挖掘有用信息的需求越来越高,研究人员提出了许多基于不同假设空间的学习算法。然而没有任何分类算法能够在所有现存的分类问题上都取得非常好的效果,因此,在实际的分类问题中很难为其选择一个合适的分类算法,如何为数据集选择合适的分类算法就显得尤为重要。决定不同的算法推荐性能差距的最大方面有:特征提取方法、元目标选择和合适算法识别,针对不均衡数据,通过对取不同特征时推荐算法的性能分别做了比较,从而选择最好的特征提取方法。
技术实现思路
本专利技术目的在于提供一种针对不均衡数据的算法推荐方法。本方法提出的针对不均衡数据集的算法推荐方法不仅考虑到分类器在数据集上的AUC,同时综合考虑了少数类上的Recall以及算法的运行时间,并使用序列融合的方法将三个序列结合起来。这样在给不均衡数据集做算法推荐时,在少数类上的表现会相对更好。本专利技术是通过以下技术方案来实现:一种针对不均衡数据的算法推荐方法,包括以下步骤:步骤1,元特征收集:使用基于距离度量的特征,通过计算数据集中两两实例之间的距离,然后将这些距离排序,分别计算出距离序列的特征集合,用于反映了数据集中实例之间的关系;步骤2,元目标收集:首先需要进行合适算法识别,在数据集上度量所有的候选算法,采用十折交叉验证的方法;步骤3,根据各个指标对候选算法进行排序:在收集完候选算法在不均衡数据集上的性能之后,需要对候选算法进行排序;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来构成了元数据集;步骤4,推荐器的构建及新数据集合适算法推荐:使用KNN进行算法推荐,KNN推荐器的构建和新数据集合适算法推荐同时进行,当有新数据集时,首先提取数据集的元特征,然后通过元特征计算出该数据集的k个近邻,然后将k个近邻的元目标进行整合,整合方法就是将对应候选算法的排名加在一起,然后再重新按照加和之后的结果进行排序;即得到新数据集候选算法的排序序列,推荐过程完成。作为本专利技术的进一步改进,步骤1中,距离序列的特征集合包括距离序列的均均值、方差、标准差、峰度、偏度、归一化后的频率和Z-Score的频率。作为本专利技术的进一步改进,步骤2中,十折交叉验证是将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;在进行合适算法识别时,通过十折交叉验证方法得到算法在数据集上的AUC、Recall。作为本专利技术的进一步改进,步骤3的具体步骤为:不均衡学习算法推荐方法在进行元目标收集时,首先需要在所有数据集上收集候选算法的性能,根据各个指标对候选算法进行排序;在收集完候选算法在不均衡数据集上的性能之后,需要根据AUC、少数类上的Recall以及运行时间对候选算法进行排序;假设候选算法分别为{Alg1,Alg2,Alg3,...,Algm}共m个,然后在AUC上按照从大到小排序,得到的各个候选算法的对应次序为{a1,a2,a3,...,am};在少数类Recall上,按照从大到小排序,得到的各个候选算法对应次序为{b1,b2,b3,...,bm};在运行时间上,按照从大到小排序,得到的各个候选算法对应次序为{c1,c2,c3,...,cm};在得到候选算法在各个指标之上的排序序列之后就需要将这三个序列融合起来;将这三个序列融合时,首先需要给每个次序一个得分,一般排的越靠前得分越高;对于算法Algi,其对应的AUC的次序为ai,Recall的次序为bi,运行时间的排序为ci,通过查找得分与排名,分别得到每个次序对应的得分m1,m2,m3;然后需要将这三个得分加权求和,其计算方法如下:αm1+βm2-γm3α、β、γ三个系数分别体现不同指标的重要性,考虑到AUC和Recall在评估不均衡学习算法时反映了分类器的不同方面,其在评价不均衡分类器时起到相同的作用,令α=β=1;γ的取值也会影响到推荐性能,依据上面的方法得到所有候选算法的加权得分;得到加权得分后,就需要将最后的得分进行排序,从而得到候选算法最终的排序序列;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来就构成了元数据集;元数据的每一条记录就是对一个数据集进行特征提取和元目标收集得到的结果;构建完元数据之后,在元数据集上构建推荐器。作为本专利技术的进一步改进,步骤4中:当给新数据集推荐合适算法时,首先需要进行特征提取,获取新数据集的特征;然后对得到的特征进行标准化,然后分别计算新的特征向量和所有历史数据集特征向量之间的欧式距离,然后将其按照从小到大的次序排列,并截取前K个;假设得到的K个近邻的类标签分别为:{a11,a12,...,a1t},{a21,a22,...,a2t},…,{ak1,ak2,...,akt};其中aij表示第i个近邻的第j个算法的次序;得到K个近邻的类标签后,需要将这K个近邻的类标签进行加和;计算方法如下:通过上式可以计算出每个候选算法的得分;然后需要再将各个候选算法的得分进行排序,此时ai越小,则排序越靠前;这样就得到了新数据集的候选算法排序序列。作为本专利技术的进一步改进,获取新数据集的特征具体步骤为:在使用KNN进行算法推荐时,首先需要计算两个数据集之间的距离,采用欧式距离,假设两个数据集D1和D2,从数据集D1中提取出的特征向量为{F11,F12,F13,…,F1t},从数据集D2中提取出的特征为{F21,F22,F23,…,F2t},其中t为特征的维数。作为本专利技术的进一步改进,对得到的特征进行标准化具体步骤为:使用min-max标准化,转换函数如下:式中:min——当前特征取值的最小值;max——当前特征取值的最大值;x——当前特征取值;将元数据集中的每一维的元特征分别进行归一化,归一化之后得到数据集D1的特征为{F′11,F'12,...,F′1t},数据集D2的特征为{F′21,F'22,...,F′2t}。作为本专利技术的进一步改进,欧式距离计算具体步骤为:标准化完成后需要使用标准化之后的特征向量计算两个数据集之间的距离;采用欧式距离反映两个数据集之间的距离;具体计算公式如下:式中:F′1i——为数据集D1的第i个特征标准化后的值;F′2i——为数据集D2的第i个特征标准化后的值。与现有技术相比,本专利技术具有以下优点:相比于其他的算法推荐,本专利技术在进行算法推荐时,使用多标签推荐,并将时间因素考虑在内。不仅使用到传统的数据集特征,也使用到基于复杂度的特征等。之后,在进行合适算法识别时,不仅考虑到分类算法的在数据集上的AUC,同时也考虑了分类算法在少数类上的Recall,以及分类算法在数据集上的运行时间。该算法具有如下优点:第一:这种方法推荐出了候选算法的序列,如果在实际问题中需要多个算法时,可以从候选算法序列中截取;第二:这种方法使用的基于距离的特征提取方法相比于其他特征提取方法更加简单,只需要计算数据集中实例之间的欧式距离即可;第三:本方法提出的针对不均衡数据集的算法推荐方法不仅考虑到分类器在数据集上的AUC,同时综合考虑了少数类上的Recall以及算法的运行时间,并使用序列融合的方法将三个序列结合起来。这样在给不均衡数据集做算法推荐时,在少数类上的表现会相对更好本文档来自技高网...

【技术保护点】
1.一种针对不均衡数据的算法推荐方法,其特征在于:包括以下步骤:步骤1,元特征收集:使用基于距离度量的特征,通过计算数据集中两两实例之间的距离,然后将这些距离排序,分别计算出距离序列的特征集合,用于反映了数据集中实例之间的关系;步骤2,元目标收集:首先需要进行合适算法识别,在数据集上度量所有的候选算法,采用十折交叉验证的方法;步骤3,根据各个指标对候选算法进行排序:在收集完候选算法在不均衡数据集上的性能之后,需要对候选算法进行排序;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来构成了元数据集;步骤4,推荐器的构建及新数据集合适算法推荐:使用KNN进行算法推荐,KNN推荐器的构建和新数据集合适算法推荐同时进行,当有新数据集时,首先提取数据集的元特征,然后通过元特征计算出该数据集的k个近邻,然后将k个近邻的元目标进行整合,整合方法就是将对应候选算法的排名加在一起,然后再重新按照加和之后的结果进行排序;即得到新数据集候选算法的排序序列,推荐过程完成。

【技术特征摘要】
1.一种针对不均衡数据的算法推荐方法,其特征在于:包括以下步骤:步骤1,元特征收集:使用基于距离度量的特征,通过计算数据集中两两实例之间的距离,然后将这些距离排序,分别计算出距离序列的特征集合,用于反映了数据集中实例之间的关系;步骤2,元目标收集:首先需要进行合适算法识别,在数据集上度量所有的候选算法,采用十折交叉验证的方法;步骤3,根据各个指标对候选算法进行排序:在收集完候选算法在不均衡数据集上的性能之后,需要对候选算法进行排序;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来构成了元数据集;步骤4,推荐器的构建及新数据集合适算法推荐:使用KNN进行算法推荐,KNN推荐器的构建和新数据集合适算法推荐同时进行,当有新数据集时,首先提取数据集的元特征,然后通过元特征计算出该数据集的k个近邻,然后将k个近邻的元目标进行整合,整合方法就是将对应候选算法的排名加在一起,然后再重新按照加和之后的结果进行排序;即得到新数据集候选算法的排序序列,推荐过程完成。2.根据权利要求1所述的一种针对不均衡数据的算法推荐方法,其特征在于:步骤1中,距离序列的特征集合包括距离序列的均均值、方差、标准差、峰度、偏度、归一化后的频率和Z-Score的频率。3.根据权利要求1所述的一种针对不均衡数据的算法推荐方法,其特征在于:步骤2中,十折交叉验证是将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;在进行合适算法识别时,通过十折交叉验证方法得到算法在数据集上的AUC、Recall。4.根据权利要求1所述的一种针对不均衡数据的算法推荐方法,其特征在于:步骤3的具体步骤为:不均衡学习算法推荐方法在进行元目标收集时,首先需要在所有数据集上收集候选算法的性能,根据各个指标对候选算法进行排序;在收集完候选算法在不均衡数据集上的性能之后,需要根据AUC、少数类上的Recall以及运行时间对候选算法进行排序;假设候选算法分别为{Alg1,Alg2,Alg3,...,Algm}共m个,然后在AUC上按照从大到小排序,得到的各个候选算法的对应次序为{a1,a2,a3,...,am};在少数类Recall上,按照从大到小排序,得到的各个候选算法对应次序为{b1,b2,b3,...,bm};在运行时间上,按照从大到小排序,得到的各个候选算法对应次序为{c1,c2,c3,...,cm};在得到候选算法在各个指标之上的排序序列之后就需要将这三个序列融合起来;将这三个序列融合时,首先需要给每个次序一个得分,一般排的越靠前得分越高;对于算法Algi,其对应的AUC的次序为ai,Recall的次序为bi,运行时间的排序为ci,通过查找得分与排名,分别得到每个次序对应的得分m1,m2,m3;然后需要将这三个得分加权求和,...

【专利技术属性】
技术研发人员:朱晓燕樊帅帅崔巍贾晓琳
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1