当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于进化多任务的两阶段特征选择方法及系统技术方案

技术编号:23766585 阅读:35 留言:0更新日期:2020-04-11 20:09
本公开提供了基于进化多任务的两阶段特征选择方法及系统。其中,该方法包括分类任务构建阶段:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;最优特征筛选阶段:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。其具有实施简单、分类精度高和可调参数少等优点。

A two-stage feature selection method and system based on evolutionary multitasking

【技术实现步骤摘要】
一种基于进化多任务的两阶段特征选择方法及系统
本公开属于人工智能
,尤其涉及一种基于进化多任务的两阶段特征选择方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。随着数据收集和知识管理技术的快速发展,在机器学习和数据挖掘等领域的数据量呈现出指数增长态势。理想状态下,这些数据集提供的信息对分类目标都是有用的,但实际情况是,这些数据中绝大部分对于分类目标均属于冗余和不相干信息,这将严重影响学习算法的性能。因此,如何快速且高效的从庞大的数据中挖掘出有用的数据信息,已成为阻止数据应用领域发展的关键问题。特征选择是一个重要的数据预处理技术,它可以有效的从数据集中提取出关键信息,并简化数据分析。特征选择的目的是选择尽可能少的特征,以期得到最高的分类精度,即从原始数据集中筛选出最佳的特征子集。目前,特征选择技术已广泛应用于推荐系统、文本分类、模式识别和故障诊断等众多实际应用中,且取得了较大程度的性能提升。而在分类系统中,由于冗余和不相干特征信息的存在,势必增加模型训练的难度和计算成本,此外还容易使分类器陷入过拟合的问题。因此,在使用数据集进行分类模型构建之前,使用特征选择技术找出最佳特征子集,不仅能够降低分类系统中分类器训练的难度和构建时间,还能最大限度的提升分类系统的性能。尽管特征子集选择方法被大量提出,但是在高维数据中搜索一个具有较高分类性能的特征子集仍然是一个挑战。这是因为特征之间存在单向、双向及多向的信息交互。换句话说,当一个具有很高相关性的特征与其它特征进行组合时,该特征完全有可能变成冗余或弱相关的特征。因此,从原始数据特征集中选出的最佳特征子集,应该是一组相互关联度很高的特征信息。根据对所选特征子集评价方式的不同,特征选择方法大体可以分为过滤型和包裹型两类。过滤型是通过数据集中的内在信息来对特征进行单个评价,例如距离度量、相关性度量、一致性度量和信息度量等。最终通过一个用户自定义的参数来确定最终选择的特征子集。包裹型是通过一个学习算法来对所选的特征子集进行质量评价,例如K-最近邻、支持向量机、神经网络和贝叶斯网络等。采用包裹型方法通常可以得到较高分类精度的特征子集,但是其耗费时间较多。而使用过滤型方法进行特征选择,所需的计算成本较低,但是其精度较低。专利技术人发现,目前的特征选择方法存在特征信息已丢失的情况,造成后期分类器训练过程可调参数多且精度差的问题。
技术实现思路
为了解决上述问题,本公开提供一种基于进化多任务的两阶段特征选择方法及系统,其具有实施简单、分类精度高和可调参数少等优点。为了实现上述目的,本公开采用如下技术方案:本公开的第一方面提供一种基于进化多任务的两阶段特征选择方法,其包括:分类任务构建阶段:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;最优特征筛选阶段:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。作为一种实施方式,所述的基于进化多任务的两阶段特征选择方法具体包括:步骤1:确定两个相关的分类任务:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,根据拐点机制确定初始特征子集,记为任务1;利用特征排序方法对全部特征子集进行排序,将排序后的全部特征子集记为任务2;所述步骤1为分类任务构建阶段;步骤2:初始化粒子群算法的种群大小和最大迭代次数,并随机初始化粒子个体的初始位置和速度;粒子的每一维对应一个特征;步骤3:采用特征排序方法可变范围表征粒子群算法中粒子选中概率;对任务1和任务2中的特征搜索空间进行限定,以缩小粒子群算法搜索空间;步骤4:根据预先构建的特征子集质量评价函数,计算粒子群中每一个粒子的适应度值,初始化任务1和任务2的个体最优位置和全局最优位置;步骤5:采用线性递减方式更新粒子群算法的惯性权重;步骤6:采用预设的任务1和任务2之间的随机交互概率及更新后的惯性权重来更新粒子群中每一个粒子的速度及位置,进而计算出更新后的粒子种群中每一个粒子的适应度值;步骤7:更新任务1和任务2的个体最优位置和全局最优位置,进而更新搜索问题的最优完整解;步骤8:初始子种群变化机制,若满足条件,则更改初始特征子集;否则,初始特征子集不变;在初始特征子集的基础上,执行粒子群算法,判断粒子群的进化是否到达粒子群算法设置的最大迭代次数,若是,停止搜索,输出最优完整解作为数据集的最佳特征子集;否则,转入步骤4。本公开的第二方面提供一种基于进化多任务的两阶段特征选择系统,其包括:分类任务构建单元,其用于:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;最优特征筛选单元,其用于:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。作为一种实施方式,所述分类任务构建单元包括任务标记模块,其用于根据拐点机制确定初始特征子集,记为任务1;利用特征排序方法对全部特征子集进行排序,将排序后的全部特征子集记为任务2;所述最优特征筛选单元,包括:粒子群算法初始化模块,其用于初始化粒子群算法的种群大小和最大迭代次数,并随机初始化粒子个体的初始位置和速度;每个粒子对应一个特征;粒子群算法表征模块,其用于采用特征排序方法可变范围表征粒子群算法中粒子选中概率;对任务1和任务2中的特征搜索空间进行限定,以缩小粒子群算法搜索空间;最优位置计算模块,其用于根据预先构建的特征子集质量评价函数,计算粒子群中每一个粒子的适应度值,初始化任务1和任务2的个体最优位置和全局最优位置;惯性权重计算模块,其用于采用线性递减方式更新粒子群算法的惯性权重;粒子适应度值更新模块,其用于采用预设的任务1和任务2之间的随机交互概率及更新后的惯性权重来更新粒子群中每一个粒子的速度及位置,进而计算出更新后的粒子种群中每一个粒子的适应度值;最优完整解更新模块,其用于更新任务1和任务2的个体最优位置和全局最优位置,进而更新搜索问题的最优完整解;最佳特征子集输出模块,其用于初始子种群变化机制,若满足条件,则更改初始特征子集;否则,初始特征子集不变;在初始特征子集的基础上,执行粒子群算法,判断粒子群的进化是否到达粒子群算法设置的最大迭代次数,若是,停止搜索,输出最优完整解作为数据集的最佳特征子集;否则,更新任务1和任务2的个体最优位置和全局最优位置,继续计算最优完整解。本公开的有益效果是:(1)本公开提出了一个拐点选择机制来解决初选子集难以确定的问题,它可以自适应的从原始特征集根据特征质量选择出用于第二阶段的初选子集,同时不丢失原始数据中的重要信息。...

【技术保护点】
1.一种基于进化多任务的两阶段特征选择方法,其特征在于,包括:/n分类任务构建阶段:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;/n最优特征筛选阶段:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。/n

【技术特征摘要】
1.一种基于进化多任务的两阶段特征选择方法,其特征在于,包括:
分类任务构建阶段:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,确定初始特征子集记为任务1;将排序后的全部特征子集记为任务2;
最优特征筛选阶段:对于任务1和任务2,利用进化多任务方法中粒子群算法,查找出与预设搜索条件相匹配的最优特征子集并输出。


2.如权利要求1所述的基于进化多任务的两阶段特征选择方法,其特征在于,所述的基于进化多任务的两阶段特征选择方法具体包括:
步骤1:确定两个相关的分类任务:获取特征数据并将不同特征构成对应的特征子集且存储至特征数据库中;调取特征数据库中的全部特征子集,根据拐点机制确定初始特征子集,记为任务1;利用特征排序方法对全部特征子集进行排序,将排序后的全部特征子集记为任务2;所述步骤1为分类任务构建阶段;
步骤2:初始化粒子群算法的种群大小和最大迭代次数,并随机初始化粒子个体的初始位置和速度;粒子每一维对应一个特征;
步骤3:采用特征排序方法可变范围表征粒子群算法中粒子选中概率;对任务1和任务2中的特征搜索空间进行限定,以缩小粒子群算法搜索空间;
步骤4:根据预先构建的特征子集质量评价函数,计算粒子群中每一个粒子的适应度值,初始化任务1和任务2的个体最优位置和全局最优位置;
步骤5:采用线性递减方式更新粒子群算法的惯性权重;
步骤6:采用预设的任务1和任务2之间的随机交互概率及更新后的惯性权重来更新粒子群中每一个粒子的速度及位置,进而计算出更新后的粒子种群中每一个粒子的适应度值;
步骤7:更新任务1和任务2的个体最优位置和全局最优位置,进而更新搜索问题的最优完整解;
步骤8:初始子种群变化机制,若满足条件,则更改初始特征子集;否则,初始特征子集不变;在初始特征子集的基础上,执行粒子群算法,判断粒子群的进化是否到达粒子群算法设置的最大迭代次数,若是,停止搜索,输出最优完整解作为数据集的最佳特征子集;否则,转入步骤4。


3.如权利要求2所述的基于进化多任务的两阶段特征选择方法,其特征在于,在所述步骤1中,根据拐点机制确定初始特征子集的过程为:
对特征依据重要性进行降序排列之后,将得到一个关于特征重要性的曲线,把第一个和最后一个点用直线连起来之后,拐点就是离这条直线最远的点。这样位于拐点之上的点,也就是特征相关性高的点,将被选中来构成初始特征子集;

在所述步骤1中,利用特征排序方法中的ReliefF算法对全部特征子集进行排序。


4.如权利要求2所述的基于进化多任务的两阶段特征选择方法,其特征在于,在所述步骤3中,采用特征排序方法可变范围表征粒子群算法中粒子选中概率的过程为:
基于特征排序方法得到了两个点,即拐点和分界点;分界点是指特征权值小于0的点;根据这拐点和分界点得到一个三段式的特征表征方法,即当特征权值大于拐点权值的,其搜索范围为[0,1];当特征权值小于分界点权值的,其搜索范围为[0,a];当位于两点之间时,搜索范围由[0,1]线性递减到[0,a];其中,a为0~1之间的数,达到有效调节每一个特征被选中的概率,即好的特征选中概率大,差的特征选中概率小的目的。


5.如权利要求2所述的基于进化多任务的两阶段特征选择方法,其特征在于,在所述步骤4中,预先构建的特征子集质量评价函数为:



其中,Fitnessmin表示特征子集质量评价函数;γR(D)表示特征子集R相对于目标数据集D的分类错误率;|S|表示所选特征子集的个数;|N|表示数据集中特征的总个数;α和β是调节分类错误率和特征子集个数比率的参数;
或在所述步骤4中,初始化任务1和任务2的个体最优位置和全局最优位置的过程为:
设定粒子当前的位置为其个体...

【专利技术属性】
技术研发人员:周风余陈科孙鸿昌尹磊刘进常致富
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1