The invention discloses an algorithm recommendation method for unbalanced data. The feature extraction method is used to extract the features of data sets and standardize each dimension feature separately to obtain the meta-features of data sets. Then, AUC, Recall and the running time of the algorithm are used to evaluate the performance of the candidate algorithm. When collecting meta-targets, the performance indicators of candidate algorithms on unbalanced data sets are obtained, and the candidate algorithms are sorted. The three candidate algorithms are fused by scoring method, and the meta-targets, i.e. the sorting sequence of candidate algorithms, are finally obtained. When recommending algorithms to new data sets, feature vectors of new data sets are obtained by feature extraction method, and the feature vectors of new data sets are standardized by standardization method. Then KNN method is used to obtain the candidate algorithm sequences of K neighbors of the new data set. By adding and reordering the candidate algorithm sequences of K neighbors, the candidate algorithm sequences of the new data set are obtained.
【技术实现步骤摘要】
一种针对不均衡数据的算法推荐方法
本专利技术涉及算法推荐
,特别涉及一种针对不均衡数据的算法推荐方法。
技术介绍
随着从数据中挖掘有用信息的需求越来越高,研究人员提出了许多基于不同假设空间的学习算法。然而没有任何分类算法能够在所有现存的分类问题上都取得非常好的效果,因此,在实际的分类问题中很难为其选择一个合适的分类算法,如何为数据集选择合适的分类算法就显得尤为重要。决定不同的算法推荐性能差距的最大方面有:特征提取方法、元目标选择和合适算法识别,针对不均衡数据,通过对取不同特征时推荐算法的性能分别做了比较,从而选择最好的特征提取方法。
技术实现思路
本专利技术目的在于提供一种针对不均衡数据的算法推荐方法。本方法提出的针对不均衡数据集的算法推荐方法不仅考虑到分类器在数据集上的AUC,同时综合考虑了少数类上的Recall以及算法的运行时间,并使用序列融合的方法将三个序列结合起来。这样在给不均衡数据集做算法推荐时,在少数类上的表现会相对更好。本专利技术是通过以下技术方案来实现:一种针对不均衡数据的算法推荐方法,包括以下步骤:步骤1,元特征收集:使用基于距离度量的特征,通过计算数据集中两两实例之间的距离,然后将这些距离排序,分别计算出距离序列的特征集合,用于反映了数据集中实例之间的关系;步骤2,元目标收集:首先需要进行合适算法识别,在数据集上度量所有的候选算法,采用十折交叉验证的方法;步骤3,根据各个指标对候选算法进行排序:在收集完候选算法在不均衡数据集上的性能之后,需要对候选算法进行排序;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来构成了元数据 ...
【技术保护点】
1.一种针对不均衡数据的算法推荐方法,其特征在于:包括以下步骤:步骤1,元特征收集:使用基于距离度量的特征,通过计算数据集中两两实例之间的距离,然后将这些距离排序,分别计算出距离序列的特征集合,用于反映了数据集中实例之间的关系;步骤2,元目标收集:首先需要进行合适算法识别,在数据集上度量所有的候选算法,采用十折交叉验证的方法;步骤3,根据各个指标对候选算法进行排序:在收集完候选算法在不均衡数据集上的性能之后,需要对候选算法进行排序;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来构成了元数据集;步骤4,推荐器的构建及新数据集合适算法推荐:使用KNN进行算法推荐,KNN推荐器的构建和新数据集合适算法推荐同时进行,当有新数据集时,首先提取数据集的元特征,然后通过元特征计算出该数据集的k个近邻,然后将k个近邻的元目标进行整合,整合方法就是将对应候选算法的排名加在一起,然后再重新按照加和之后的结果进行排序;即得到新数据集候选算法的排序序列,推荐过程完成。
【技术特征摘要】
1.一种针对不均衡数据的算法推荐方法,其特征在于:包括以下步骤:步骤1,元特征收集:使用基于距离度量的特征,通过计算数据集中两两实例之间的距离,然后将这些距离排序,分别计算出距离序列的特征集合,用于反映了数据集中实例之间的关系;步骤2,元目标收集:首先需要进行合适算法识别,在数据集上度量所有的候选算法,采用十折交叉验证的方法;步骤3,根据各个指标对候选算法进行排序:在收集完候选算法在不均衡数据集上的性能之后,需要对候选算法进行排序;在得到候选算法的最终排序序列后,还需要将元特征与元目标结合起来构成了元数据集;步骤4,推荐器的构建及新数据集合适算法推荐:使用KNN进行算法推荐,KNN推荐器的构建和新数据集合适算法推荐同时进行,当有新数据集时,首先提取数据集的元特征,然后通过元特征计算出该数据集的k个近邻,然后将k个近邻的元目标进行整合,整合方法就是将对应候选算法的排名加在一起,然后再重新按照加和之后的结果进行排序;即得到新数据集候选算法的排序序列,推荐过程完成。2.根据权利要求1所述的一种针对不均衡数据的算法推荐方法,其特征在于:步骤1中,距离序列的特征集合包括距离序列的均均值、方差、标准差、峰度、偏度、归一化后的频率和Z-Score的频率。3.根据权利要求1所述的一种针对不均衡数据的算法推荐方法,其特征在于:步骤2中,十折交叉验证是将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;在进行合适算法识别时,通过十折交叉验证方法得到算法在数据集上的AUC、Recall。4.根据权利要求1所述的一种针对不均衡数据的算法推荐方法,其特征在于:步骤3的具体步骤为:不均衡学习算法推荐方法在进行元目标收集时,首先需要在所有数据集上收集候选算法的性能,根据各个指标对候选算法进行排序;在收集完候选算法在不均衡数据集上的性能之后,需要根据AUC、少数类上的Recall以及运行时间对候选算法进行排序;假设候选算法分别为{Alg1,Alg2,Alg3,...,Algm}共m个,然后在AUC上按照从大到小排序,得到的各个候选算法的对应次序为{a1,a2,a3,...,am};在少数类Recall上,按照从大到小排序,得到的各个候选算法对应次序为{b1,b2,b3,...,bm};在运行时间上,按照从大到小排序,得到的各个候选算法对应次序为{c1,c2,c3,...,cm};在得到候选算法在各个指标之上的排序序列之后就需要将这三个序列融合起来;将这三个序列融合时,首先需要给每个次序一个得分,一般排的越靠前得分越高;对于算法Algi,其对应的AUC的次序为ai,Recall的次序为bi,运行时间的排序为ci,通过查找得分与排名,分别得到每个次序对应的得分m1,m2,m3;然后需要将这三个得分加权求和,...
【专利技术属性】
技术研发人员:朱晓燕,樊帅帅,崔巍,贾晓琳,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。