一种基于特征选择和集成算法的分类方法技术

技术编号:19635667 阅读:23 留言:0更新日期:2018-12-01 16:18
本发明专利技术涉及一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到未知数据u应分类的类别。本发明专利技术从一定程度上降低了单个分类器造成的误差,提高了分类结果的准确率、召回率以及F1值。

A Classification Method Based on Feature Selection and Integration Algorithms

The present invention relates to a classification method based on feature selection and ensemble algorithm, which is characterized by the following steps: (1) For existing data set S, each feature of data set S is scored by using information gain rate and symmetrical uncertainty, threshold is set, feature is screened, and features whose score is less than threshold are deleted. To form a new data set S'; (2) To learn the selected feature data set S', adjust the parameters of the learner, train the unknown data u with the parameter-adjusted learner, calculate the probability set of the unknown data u belonging to each category, and integrate the probability set with the average method and the weighted voting method. The classification of unknown data u can be obtained by calculating. The invention reduces the error caused by a single classifier to a certain extent, and improves the accuracy, recall rate and F1 value of the classification result.

【技术实现步骤摘要】
一种基于特征选择和集成算法的分类方法
本专利技术涉及一种改进机器学习分类方法,更具体而言涉及一种基于特征选择和集成算法的改进分类方法。
技术介绍
机器学习作为一门多领域的交叉学科,已经被广泛应用在数据挖掘、图像识别和人工智能等多个领域。简单地说,机器学习可以看作是通过定义算法,利用计算机对所提供的数据集进行分析发现规律,其过程主要是对从已知样本提取的特征数据进行训练生成模型,然后使用训练得到的模型对未知数据进行预测。使用机器学习去预测未知数据主要可以分为两类任务:(1)分类:分类是指最终的结果的值是已知的离散值,对应将数据划分到对应类别的一个过程。其中分类问题又可分为二分类问题和多分类问题。(2)回归:回归主要是指最终的结果是连续值,对应将给定的数据对应到一个具体数值的过程。特征选择是指在给定的特征数据中寻找有价值的特征来减少处理和分析的输入的一个过程,具体的说特征选择是在原始特征里得到一个子集的过程,是机器学习的一个重要组成部分。有时候对于得到的特征数据,并不确定是否每个特征都是训练模型需要的,或者不确定特征对于训练模型是否有用,或是需要对特征数据进行优化,因此特征的选择会直接影响预测的最终结果。在使用机器学习算法对数据集执行分类任务时,传统方式是通过对多种算法进行尝试,从中寻找分类效果最好的算法。但是如果仅仅使用一种分类算法会产生一定的误差。集成学习是指通过某种结合策略将多个算法预测的结果进行结合来确定最后的分类的方式。通过将两种或多种算法结合,集成学习往往能够提高泛化能力,从而获得比使用单个学习器更好的效果。目前的机器学习分类方法,还存在以下不足:1、对于得到的特征数据,不确定每个特征是否都是训练模型需要的,如果采用得到的全部特征数据,会产生过拟合的情况。2、在使用机器学习算法对数据执行分类任务时,如果只采用单个分类算法,会产生一定的误差,导致陷入局部最优解。
技术实现思路
本专利技术的目的在于针对现有技术中存在的缺陷,提出基于特征选择和集成算法的分类方法。为了达到目的,本专利技术提供的技术方案为:本专利技术涉及的一种基于特征选择和集成算法的分类方法,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。优选地,所述的步骤1包括以下步骤:(1.1)收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj);(1.2)针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj);(1.3)计算各个特征的总得分,Score(fj)=Scoregr(fj)+Scoresu(fj);(1.4)计算每个特征得分在所有特征总得分中的比重,ScoreRadio(fj)=Score(fj)/∑nj=1Score(fj)*100%;(1.5)设定得分占比阈值M,去除得分占比小于得分占比阈值M的特征,形成新的数据集S’。优选地,所述的步骤2包括以下步骤:(2.1)用多个学习器对筛选后的数据集S’进行学习,调整各学习器的参数;(2.2)学习器的类别集合为{c1,c2,...,ck},学习器的数量为T,用调参后的学习器对未知数据u进行学习,得到每个学习器针对未知数据u属于各类别的概率集{h1T,h2T,…,hkT},k表示类别的数量;(2.3)其中,T1个学习器的性能相近,用hji(x)表示第i个学习器预测未知数据u类别为cj的概率,用加权平均法得到的未知数据u的类别为cj的概率,计算公式为(2.4)针对其它性能差异较大的算法,将这些算法与步骤2.3中使用平均法的算法使用加权投票法进行集成,设wavg为步骤2.3中T1个学习器对应的平均权值,wi为剩余学习器中第i个学习器对应的权值,则将加权投票法得到的预测样本类别为cj的概率记为(2.5)根据步骤2.3和步骤2.4中两个方法得到的概率hj,可以根据其得到预测未知数据u应分类为的类别c,分类结果为采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:(1)本专利技术通过信息增益率和对称不确定性作为评判标准对各个特征进行评分,最后计算两种方式得出的各个特征的得分占比,以此去除一些关联度较小的特征,能够加快模型训练的过程,简化训练模型,减少过拟合情况的发生并在一定程度上提高算法的准确率。(2)本专利技术利用平均法和加权投票法将不同性能的分类算法结合起来,提高了学习器的泛化能力,能够防止单个学习器的造成的误差,降低陷入局部最优解的可能性,提升了分类算法预测结果的准确率、召回率以及F1值。附图说明图1是本专利技术的基于特征选择和集成算法的改进分类方法的流程示意图。具体实施方式为进一步了解本专利技术的内容,结合实施例对本专利技术作详细描述,以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。结合附图1所示,本专利技术涉及的一种基于特征选择和集成算法的分类方法,包括以下步骤:步骤1.1:收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj),Scoregr(fj)是描述数据无序程度的变量,值越小则越有序,而对于数据集是否有序,可以用“纯度”来衡量,因此一般使用Scoregr(fj)来代表数据集的纯度,信息增益率解决了信息增益属性选择时偏好多属性的缺点,可以用来获得特征对于样本纯度提升大小的影响。步骤1.2:针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj),对称不确定性是对互信息量归一化的方法,消除了随机变量和值的影响,用来衡量特征与样本之间的相关性。步骤1.3:通过以上两个步骤分别计算出两种方式对特征的评分后,计算每个特征两种方法的得分总和,Score(fj)=Scoregr(fj)+Scoresu(fj);步骤1.4:然后计算每个特征得分在所有特征总得分中的比重,ScoreRadio(fj)=Score(fj)/∑nj=1Score(fj)*100%。步骤1.5:设定得分占比阈值M,去除得分占比小于得分占比阈值M的特征,得到特征样本集合N,形成新的数据集合S’。步骤2.1:用多个学习器对筛选后的数据集S’进行学习,调整各学习器的参数。步骤2.2:学习器的类别集合为{c1,c2,...,ck},学习器的数量为T,用调参后的学习器对未知数据u进行学习,得到每个学习器针对未知数据u属于各类别的概率集{h1T,h2T,…,hkT},k表示类别的数量。步骤2.3:针对多个性能相近的算法,用hji(x)表示第i个学习器预测样本x类别为cj的概率,对于本文档来自技高网
...

【技术保护点】
1.一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。

【技术特征摘要】
1.一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。2.根据权利要求1所述的基于特征选择和集成算法的分类方法,其特征在于,所述的步骤1包括以下步骤:(1.1)收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj);(1.2)针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj);(1.3)计算各个特征的总得分,Score(fj)=Scoregr(fj)+Scoresu(fj);(1.4)计算每个特征...

【专利技术属性】
技术研发人员:孙文司华友金厅周佳勇郑飘飘
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1