一种基于二进制萤火虫算法的属性选择方法技术

技术编号:13457834 阅读:33 留言:0更新日期:2016-08-03 16:15
本发明专利技术公开了一种基于二进制萤火虫算法的属性选择方法,其特征按如下步骤进行:步骤1、利用分形维数盒计法计算高维数据集的分形维数,获得的所要选择属性的个数;步骤2、初始化萤火虫种群;步骤3、利用二进制萤火虫算法对高维数据集的多个属性进行选择,获得最优属性子集;步骤4、输出最优解。本发明专利技术使用二制萤火虫算法作为属性选择的搜索策略,以分形维数作为属性选择评估度量准则,从高维数据集的多个指标属性中选择一个较优的属性子集,这样能够降低数据处理的复杂性,提高数据处理的效率,从而满足解决实际问题的需要。

【技术实现步骤摘要】

本专利技术涉及数据挖掘与模式识别中的数据预处理领域,具体的说是一种基于二进制萤火虫算法的属性选择方法
技术介绍
数据挖掘(DataMining)指从海量的数据中通过一系列复杂的算法探索隐藏于数据中的有效信息的行为,而数据的高维性和多属性会影响数据挖掘的性能。因此,需要对高维数据集进行降维预处理,从而提高数据挖掘的效率。所谓数据降维就是按照一定的准则从原始数据集的属性集中选取一个最具代表性的属性子集,又称属性选择。属性选择是以属性变量与目标属性之间的相关关系及冗余关系测度为基础,根据事先设定的属性评估标准或评估函数来选择数据挖掘模型所需的输入属性。属性选择的关键在于评估度量和搜索策略这两方面。现有的经典属性选择算法主要从两个角度进行考虑:其一,侧重属性选择的评估度量准则研究。InbaraniH,ArafatH及JingSY等人将粗糙集理论作为待选属性子集的评估度量准则来解决属性选择问题。随着分形理论的发展,分形维数作为评估度量准则,并证明其有效性与可行性。其中,TrainaC首次提出将分形维数应用到属性选择问题中;CamastraF研究表明所选属性子集的分形维数越接近于原始数据集的分形维数,其分类准确率越高;BanatiH验证分形维数作为待选属性子集的评估度量准则的有效性与可行性;其二,侧重于属性选择的搜索策略研究,具有代表性的有遗传算法及各种群智能算法。JingSY提出采用混合遗传算法作为属性选择搜索策略,ArafatH与倪丽萍等提出以蚁群算法作为属性选择搜索策略,InbaraniH将粒子群算法作为搜索策略,HuY,DingL等人采用蜂群算法作为搜索策略等。采不同的搜索策略算法导致选择的属性子集不同,其相应的分类准确率就存在不同的差异。然而上述属性选择算法存在如下缺陷:(1)使用粗糙集理论作为待选属性子集的评估度量准则,属性约简率较低,其时间计算复杂度较高;(2)遗传算法在寻优过程中,对初始种群的选择具有一定的依赖性,初始种群的选择会影响优化的速度和性能,其他各种群智能算法易陷入局部最优,其收敛性难以确定,并且遗传算法的时间复杂度较高。
技术实现思路
本专利技术为克服现有技术存在的不足之处,提出一种基于二进制萤火虫算法的属性选择方法,以期能使用离散型萤火虫算法二制萤火虫算法作为属性选择的搜索策略,以分形维数作为属性选择评估度量准则,从高维数据集的多个属性中选择一个具有代表性的属性子集,从而能提高数据处理的效率,降低时间复杂度。为解决上述技术问题,本专利技术所采用的技术方案是:本专利技术一种基于二进制萤火虫算法的属性选择方法的特点是按如下步骤进行:步骤1、利用分形维数盒计法计算维度为d的高维数据集的分形维数,获得的计算结果d1,并向上取整后作为选择属性的个数m;m<d;步骤2、初始化萤火虫种群X;初始化第i只萤火虫为xi,并有xi=(xi1,xi2,…,xik,…,xid),i=1,2,…n;xik表示第i只萤火虫的第k位;并有xik=1表示第i只萤火虫的第k个属性被选择;并有xik=0表示第i只萤火虫的第k个属性未被选择;且从而初始化萤火虫种群X={x1,x2,…,xi,…,xn本文档来自技高网
...

【技术保护点】
一种基于二进制萤火虫算法的属性选择方法,其特征是按如下步骤进行:步骤1、利用分形维数盒计法计算维度为d的高维数据集的分形维数,获得的计算结果d1,并向上取整后作为选择属性的个数m;m<d;步骤2、初始化萤火虫种群X;初始化第i只萤火虫为xi,并有xi=(xi1,xi2,…,xik,…,xid),i=1,2,…n;xik表示第i只萤火虫的第k位;并有xik=1表示第i只萤火虫的第k个属性被选择;并有xik=0表示第i只萤火虫的第k个属性未被选择;且从而初始化萤火虫种群X={x1,x2,…,xi,…,xn};以第i只萤火虫为xi作为属性选择的第i个解;定义第i只萤火虫xi的荧光素挥发因子为ρ、荧光素更新率为γ、动态决策域更新率为β、感知半径为θ、邻域集内包含的萤火虫数目的阈值为ω、初始荧光素值为li(0)、初始动态决策域半径为初始位置为xi(0)={xi1(0),xi2(0),…,xik(0),…,xid(0)};步骤3、在所述高维数据集上利用二进制萤火虫算法对d个属性进行选择,获得由m个属性构成的最优属性子集。

【技术特征摘要】
1.一种基于二进制萤火虫算法的属性选择方法,其特征是按如下步骤进行:
步骤1、利用分形维数盒计法计算维度为d的高维数据集的分形维数,获得的计算结果
d1,并向上取整后作为选择属性的个数m;m<d;
步骤2、初始化萤火虫种群X;
初始化第i只萤火虫为xi,...

【专利技术属性】
技术研发人员:倪志伟李敬明张琛朱旭辉金飞飞伍章俊
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1