【技术实现步骤摘要】
一种基于进化多任务的两阶段特征选择方法及系统
本公开属于人工智能
,尤其涉及一种基于进化多任务的两阶段特征选择方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。随着数据收集和知识管理技术的快速发展,在机器学习和数据挖掘等领域的数据量呈现出指数增长态势。理想状态下,这些数据集提供的信息对分类目标都是有用的,但实际情况是,这些数据中绝大部分对于分类目标均属于冗余和不相干信息,这将严重影响学习算法的性能。因此,如何快速且高效的从庞大的数据中挖掘出有用的数据信息,已成为阻止数据应用领域发展的关键问题。特征选择是一个重要的数据预处理技术,它可以有效的从数据集中提取出关键信息,并简化数据分析。特征选择的目的是选择尽可能少的特征,以期得到最高的分类精度,即从原始数据集中筛选出最佳的特征子集。目前,特征选择技术已广泛应用于推荐系统、文本分类、模式识别和故障诊断等众多实际应用中,且取得了较大程度的性能提升。而在分类系统中,由于冗余和不相干特征信息的存在,势必增加模型训练的难度和计算成本,此外还容易使分类器陷入过拟合的问题。因此,在使用数据集进行分类模型构建之前,使用特征选择技术找出最佳特征子集,不仅能够降低分类系统中分类器训练的难度和构建时间,还能最大限度的提升分类系统的性能。尽管特征子集选择方法被大量提出,但是在高维数据中搜索一个具有较高分类性能的特征子集仍然是一个挑战。这是因为特征之间存在单向、双向及多向的信息交互。换句话说,当一个具有很高相关性的特征与其
【技术保护点】
1.一种基于进化多任务的两阶段特征选择方法,其特征在于,包括:/n分类任务构建阶段:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;/n最优特征筛选阶段:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。/n
【技术特征摘要】
1.一种基于进化多任务的两阶段特征选择方法,其特征在于,包括:
分类任务构建阶段:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;
最优特征筛选阶段:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。
2.如权利要求1所述的基于进化多任务的两阶段特征选择方法,其特征在于,所述的基于进化多任务的两阶段特征选择方法具体包括:
步骤1:确定两个相关的分类任务:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,根据拐点机制确定初始特征子集,记为任务1;利用特征排序方法对全部特征子集进行排序,将排序后的全部特征子集记为任务2;所述步骤1为分类任务构建阶段;
步骤2:初始化粒子群算法的种群大小和最大迭代次数,并随机初始化粒子个体的初始位置和速度;粒子每一维对应一个特征;
步骤3:采用特征排序方法可变范围表征粒子群算法中粒子选中概率;对任务1和任务2中的特征搜索空间进行限定,以缩小粒子群算法搜索空间;
步骤4:根据预先构建的特征子集质量评价函数,计算粒子群中每一个粒子的适应度值,初始化任务1和任务2的个体最优位置和全局最优位置;
步骤5:采用线性递减方式更新粒子群算法的惯性权重;
步骤6:采用预设的任务1和任务2之间的随机交互概率及更新后的惯性权重来更新粒子群中每一个粒子的速度及位置,进而计算出更新后的粒子种群中每一个粒子的适应度值;
步骤7:更新任务1和任务2的个体最优位置和全局最优位置,进而更新搜索问题的最优完整解;
步骤8:初始子种群变化机制,若满足条件,则更改初始特征子集;否则,初始特征子集不变;在初始特征子集的基础上,执行粒子群算法,判断粒子群的进化是否到达粒子群算法设置的最大迭代次数,若是,停止搜索,输出最优完整解作为数据集的最佳特征子集;否则,转入步骤4。
3.如权利要求2所述的基于进化多任务的两阶段特征选择方法,其特征在于,在所述步骤1中,根据拐点机制确定初始特征子集的过程为:
对特征依据重要性进行降序排列之后,将得到一个关于特征重要性的曲线,把第一个和最后一个点用直线连起来之后,拐点就是离这条直线最远的点。这样位于拐点之上的点,也就是特征相关性高的点,将被选中来构成初始特征子集;
或
在所述步骤1中,利用特征排序方法中的ReliefF算法对全部特征子集进行排序。
4.如权利要求2所述的基于进化多任务的两阶段特征选择方法,其特征在于,在所述步骤3中,采用特征排序方法可变范围表征粒子群算法中粒子选中概率的过程为:
基于特征排序方法得到了两个点,即拐点和分界点;分界点是指特征权值小于0的点;根据这拐点和分界点得到一个三段式的特征表征方法,即当特征权值大于拐点权值的,其搜索范围为[0,1];当特征权值小于分界点权值的,其搜索范围为[0,a];当位于两点之间时,搜索范围由[0,1]线性递减到[0,a];其中,a为0~1之间的数,达到有效调节每一个特征被选中的概率,即好的特征选中概率大,差的特征选中概率小的目的。
5.如权利要求2所述的基于进化多任务的两阶段特征选择方法,其特征在于,在所述步骤4中,预先构建的特征子集质量评价函数为:
其中,Fitnessmin表示特征子集质量评价函数;γR(D)表示特征子集R相对于目标数据集D的分类错误率;|S|表示所选特征子集的个数;|N|表示数据集中特征的总个数;α和β是调节分类错误率和特征子集个数比率的参数;
或在所述步骤4中,初始化任务1和任务2的个体最优位置和全局最优位置的过程为:
设定粒子当前的位置为其个体...
【专利技术属性】
技术研发人员:周风余,陈科,孙鸿昌,尹磊,刘进,常致富,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。