The present invention relates to a classification method based on feature selection and ensemble algorithm, which is characterized by the following steps: (1) For existing data set S, each feature of data set S is scored by using information gain rate and symmetrical uncertainty, threshold is set, feature is screened, and features whose score is less than threshold are deleted. To form a new data set S'; (2) To learn the selected feature data set S', adjust the parameters of the learner, train the unknown data u with the parameter-adjusted learner, calculate the probability set of the unknown data u belonging to each category, and integrate the probability set with the average method and the weighted voting method. The classification of unknown data u can be obtained by calculating. The invention reduces the error caused by a single classifier to a certain extent, and improves the accuracy, recall rate and F1 value of the classification result.
【技术实现步骤摘要】
一种基于特征选择和集成算法的分类方法
本专利技术涉及一种改进机器学习分类方法,更具体而言涉及一种基于特征选择和集成算法的改进分类方法。
技术介绍
机器学习作为一门多领域的交叉学科,已经被广泛应用在数据挖掘、图像识别和人工智能等多个领域。简单地说,机器学习可以看作是通过定义算法,利用计算机对所提供的数据集进行分析发现规律,其过程主要是对从已知样本提取的特征数据进行训练生成模型,然后使用训练得到的模型对未知数据进行预测。使用机器学习去预测未知数据主要可以分为两类任务:(1)分类:分类是指最终的结果的值是已知的离散值,对应将数据划分到对应类别的一个过程。其中分类问题又可分为二分类问题和多分类问题。(2)回归:回归主要是指最终的结果是连续值,对应将给定的数据对应到一个具体数值的过程。特征选择是指在给定的特征数据中寻找有价值的特征来减少处理和分析的输入的一个过程,具体的说特征选择是在原始特征里得到一个子集的过程,是机器学习的一个重要组成部分。有时候对于得到的特征数据,并不确定是否每个特征都是训练模型需要的,或者不确定特征对于训练模型是否有用,或是需要对特征数据进行优化,因此特征的选择会直接影响预测的最终结果。在使用机器学习算法对数据集执行分类任务时,传统方式是通过对多种算法进行尝试,从中寻找分类效果最好的算法。但是如果仅仅使用一种分类算法会产生一定的误差。集成学习是指通过某种结合策略将多个算法预测的结果进行结合来确定最后的分类的方式。通过将两种或多种算法结合,集成学习往往能够提高泛化能力,从而获得比使用单个学习器更好的效果。目前的机器学习分类方法,还存在以下不足:1 ...
【技术保护点】
1.一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。
【技术特征摘要】
1.一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。2.根据权利要求1所述的基于特征选择和集成算法的分类方法,其特征在于,所述的步骤1包括以下步骤:(1.1)收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj);(1.2)针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj);(1.3)计算各个特征的总得分,Score(fj)=Scoregr(fj)+Scoresu(fj);(1.4)计算每个特征...
【专利技术属性】
技术研发人员:孙文,司华友,金厅,周佳勇,郑飘飘,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。