【技术实现步骤摘要】
本专利技术涉及数据挖掘与模式识别中的数据预处理领域,具体的说是一种基于二进制萤火虫算法的属性选择方法。
技术介绍
数据挖掘(DataMining)指从海量的数据中通过一系列复杂的算法探索隐藏于数据中的有效信息的行为,而数据的高维性和多属性会影响数据挖掘的性能。因此,需要对高维数据集进行降维预处理,从而提高数据挖掘的效率。所谓数据降维就是按照一定的准则从原始数据集的属性集中选取一个最具代表性的属性子集,又称属性选择。属性选择是以属性变量与目标属性之间的相关关系及冗余关系测度为基础,根据事先设定的属性评估标准或评估函数来选择数据挖掘模型所需的输入属性。属性选择的关键在于评估度量和搜索策略这两方面。现有的经典属性选择算法主要从两个角度进行考虑:其一,侧重属性选择的评估度量准则研究。InbaraniH,ArafatH及JingSY等人将粗糙集理论作为待选属性子集的评估度量准则来解决属性选择问题。随着分形理论的发展,分形维数作为评估度量准则,并证明其有效性与可行性。其中,TrainaC首次提出将分形维数应用到属性选择问题中;CamastraF研究表明所选属性子集的分形维数越接近于原始数据集的分形维数,其分类准确率越高;BanatiH验证分形维数作为待选属性子集的评估度量准则的有效性与可行性;其二,侧重于属性选择的搜索策略研究,具有代表性的有遗传算法及各种群智能算法。JingSY提出采用混合遗传算法作为属性选择搜索策略,Ar ...
【技术保护点】
一种基于二进制萤火虫算法的属性选择方法,其特征是按如下步骤进行:步骤1、利用分形维数盒计法计算维度为d的高维数据集的分形维数,获得的计算结果d1,并向上取整后作为选择属性的个数m;m<d;步骤2、初始化萤火虫种群X;初始化第i只萤火虫为xi,并有xi=(xi1,xi2,…,xik,…,xid),i=1,2,…n;xik表示第i只萤火虫的第k位;并有xik=1表示第i只萤火虫的第k个属性被选择;并有xik=0表示第i只萤火虫的第k个属性未被选择;且从而初始化萤火虫种群X={x1,x2,…,xi,…,xn};以第i只萤火虫为xi作为属性选择的第i个解;定义第i只萤火虫xi的荧光素挥发因子为ρ、荧光素更新率为γ、动态决策域更新率为β、感知半径为θ、邻域集内包含的萤火虫数目的阈值为ω、初始荧光素值为li(0)、初始动态决策域半径为初始位置为xi(0)={xi1(0),xi2(0),…,xik(0),…,xid(0)};步骤3、在所述高维数据集上利用二进制萤火虫算法对d个属性进行选择,获得由m个属性构成的最优属性子集。
【技术特征摘要】
1.一种基于二进制萤火虫算法的属性选择方法,其特征是按如下步骤进行:
步骤1、利用分形维数盒计法计算维度为d的高维数据集的分形维数,获得的计算结果
d1,并向上取整后作为选择属性的个数m;m<d;
步骤2、初始化萤火虫种群X;
初始化第i只萤火虫为xi,...
【专利技术属性】
技术研发人员:倪志伟,李敬明,张琛,朱旭辉,金飞飞,伍章俊,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。