当前位置: 首页 > 专利查询>东华大学专利>正文

一种基于人工蜂群算法的数据特征选择方法技术

技术编号:15287820 阅读:76 留言:0更新日期:2017-05-10 12:03
本发明专利技术涉及一种基于人工蜂群算法的数据特征选择方法,包括以下步骤:确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;计算选择概率模型函数,并选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;观察开采次数,实施采蜜蜂位置更新机制;保留目前为止最优解位置,即代表最优特征子集;若达到最大迭代次数,则输出最优特征子集;否则重复以上步骤。本发明专利技术能够降低特征选择方法的复杂性。

Data feature selection method based on artificial bee colony algorithm

The invention relates to a method for selecting data features based on artificial bee colony algorithm, which comprises the following steps: determining the control parameters of the artificial bee colony algorithm, the data set is normalized to make an appointment; initialization produces a group of bees, selection and calculation of every bees fitness fitness value basis for the selection of features. And the corresponding number of mining is zero; update method based on artificial bee colony algorithm, update the bees, calculating individual fitness value and update its mining number; probability model selection calculation function, and select a bees bee bee as the observation, observation update position, calculating individual fitness value and update the number of times of mining; observation of mining, the implementation of bees location update mechanism; keep far optimal position, which represents the optimal feature Subset; if the maximum number of iterations is reached, the output of the feature subset; otherwise, repeat the above steps. The invention can reduce the complexity of the feature selection method.

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是涉及一种基于人工蜂群算法的数据特征选择方法
技术介绍
近年来,数据挖掘技术在商业智能、生物医疗和基因检测等领域得到了的广泛应用,而如何从大规模数据中进行降维,以得到有效的简化数据,正变得越来越重要。在许多实际应用中,存储于数据库中的数据集往往拥有成千甚至上万个特征,但并不是所有的特征都对发现隐藏于数据背后的重要信息有帮助。由于只有小部分特征代表着整个高维特征空间的分布特性,这些需要被删选掉的特征,不仅在学习算法对知识发现的过程中增加了干扰,也增加了学习结果的复杂性和不可解释性。特征选择作为一种关键的数据分析方法和预处理手段,在对数据进行知识挖掘之前,通过从原始数据特征集合中选择其中的一个最优特征子集,不但可以消除数据噪声的干扰、剔除冗余和无关的特征,也可以大大降低后续数据处理的复杂度,减小运行时间,并提高数据分析的准确性和有效性。目前,特征选择已成功地应用于图像分类、聚类分析、模式识别和图片检索等场合,帮助研究人员从大规模数据集中挑选出最好的一组特征子集,简化应用过程,从而更好地理解学习算法的结果。特征选择方法可以分为过滤式和封装式两种模式。过滤式是基于数据的统计特性,如计算信息熵、距离等度量指标来赋予各个特征不同的权重,以此来决定特征是否应该被保留或剔除,所以是一种独立于学习算法之外的特征选择方法。与过滤式不同的是,封装式则利用学习算法来甄别出有用的特征,将特征选择问题建模为一个典型的组合优化问题,通过基于学习算法的特征选择搜索方法,寻找到最优特征子集。总的来说,封装式可以比过滤式取得更好的学习结果,这是因为封装式建立了特征与学习算法之间的关系,可以为不同的学习算法选择最适合的特征子集,从而大大提高学习算法的准确率。不过,封装式往往会比过滤式占用更多的运行时间。不管是过滤式还是封装式,现有的特征选择搜索方法存在着高复杂度和低效率的缺陷。例如,暴力搜索方法通过评估特征集合的每一个特征子集来达到选择最优特征子集的目的。然而,面对拥有较多特征的大数据集来说,这是不可能实现的,因此,在实际应用中很少采用这种方法。此外,在利用封装式来选择最优特征子集时,并没有考虑对最优特征个数的最小化。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于人工蜂群算法的数据特征选择方法,能够降低特征选择方法的复杂性。本专利技术解决其技术问题所采用的技术方案是:提供一种基于人工蜂群算法的数据特征选择方法,包括以下步骤:(1)确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;(4)计算选择概率模型函数,依概率模型函数选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;(5)观察开采次数,实施采蜜蜂位置更新机制;(6)保留目前为止最优解位置,即代表最优特征子集;(7)若达到最大迭代次数,则输出最优特征子集;否则重复步骤(2)~步骤(6)。所述步骤(1)的具体为:对数据集中的每一维特征值映射至[0,1]范围,即f'=(f-fmin)/(fmax-fmin),其中,f'为该维特征映射后的值,f为该维特征未映射前的值,fmin为该维特征在数据集中的最小值,fmax为该维特征在数据集中的最大值。所述步骤(2)中初始化产生一组采蜜蜂位置具体为:针对特征选择这一组合优化问题,对采蜜蜂位置采用二进制编码,编码长度值代表数据集中原始特征的总个数,用“1”表示该位代表的特征被选中,用“0”表示该位代表的特征未被选中。所述步骤(2)中每一个采蜜蜂的适应度值计算方式为Fit=w*(1-Acc)+(1-w)*(N1/N2),其中,Fit为适应度函数值,Acc为基于数据集利用10-fold交叉验证法计算得到的学习算法的准确率,N1为采蜜蜂位置中置为“1”的个数,N2为数据集中原始特征的总个数;w为权重值,取值范围为[0,1]。所述步骤(3)中基于人工蜂群算法的更新方式为其中,R为0~1的随机数,xij代表第i个采蜜蜂第j个位置的值,vij为xij更新后的值,NOT代表取反逻辑操作。所述的步骤(4)中概率模型函数为其中,Fiti为第i个采蜜蜂的适应度值,pi为第i个采蜜蜂被选中的概率。所述的步骤(5)具体为:观察采蜜蜂对应的开采次数,如果开采次数大于或等于最大开采次数,则将此采蜜蜂的位置替换为一个重新随机初始化的位置。有益效果由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术利用人工蜂群算法,在整个特征空间进行优化搜索,极大地提高了搜索性能,降低了特征选择方法的复杂性。本专利技术在提高学习算法准确率的同时,尽可能地减少最优特征的个数,从而帮助研究人员减少后期数据挖掘的难度,提高了学习算法结果的可解释性。附图说明图1是本专利技术基于人工蜂群算法的数据特征选择方法的流程图;图2是本专利技术的采蜜蜂位置采用二进制编码的初始化示意图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术的实施方式涉及一种基于人工蜂群算法的数据特征选择方法,本专利技术将人工蜂群算法(ArtificialBeeColonyAlgorithm)用于求解数据特征选择这一典型组合优化问题,通过设计带有最优特征个数影响的适应度函数,不仅可以提高学习算法的准确率,而且可以最大程度地减少最优特征的个数,降低后续数据分析与挖掘的难度与复杂度。如图1所示,本专利技术具体包括以下步骤:(1)确定人工蜂群算法控制参数,将获得的数据集进行归一化处理。具体为:设置人工蜂群算法的控制参数:采蜜蜂个数=观察蜂个数=NP,最大开采次数Limit,最大迭代次数Maxgen。将获得的数据集进行归一化处理:对数据集中的每一维特征值映射至[0,1]范围,即f'=(f-fmin)/(fmax-fmin),其中,f'为该维特征映射后的值,f为该维特征未映射前的值,fmin为该维特征在数据集中的最小值,fmax为该维特征在数据集中的最大值。(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数trail置为0:具体地说,针对特征选择这一组合优化问题,对采蜜蜂位置采用二进制编码,编码长度值代表数据集中原始特征的总个数,如图2所示,用“1”表示该位代表的特征被选中;用“0”表示该位代表的特征未被选中。随机初始化每一个采蜜蜂位置,根据特征选择适应度函数,赋予每一个采蜜蜂适应度值,并将其开采次数trial置为0,即trail=0。其中,特征选择适应度函数的计算方式为:Fit=w*(1-Acc)+(1-w)*(N1/N2)(1)其中,Fit为适应度函数值,Acc为基于数据集利用10-fold交叉验证法计算得到的学习算法(可以为分类算法、回归算法和聚类算法等)的准确率,也就是将数据集随机分本文档来自技高网
...
一种基于人工蜂群算法的数据特征选择方法

【技术保护点】
一种基于人工蜂群算法的数据特征选择方法,其特征在于,包括以下步骤:(1)确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;(4)计算选择概率模型函数,依概率模型函数选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;(5)观察开采次数,实施采蜜蜂位置更新机制;(6)保留目前为止最优解位置,即代表最优特征子集;(7)若达到最大迭代次数,则输出最优特征子集;否则重复步骤(2)~步骤(6)。

【技术特征摘要】
1.一种基于人工蜂群算法的数据特征选择方法,其特征在于,包括以下步骤:(1)确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;(4)计算选择概率模型函数,依概率模型函数选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;(5)观察开采次数,实施采蜜蜂位置更新机制;(6)保留目前为止最优解位置,即代表最优特征子集;(7)若达到最大迭代次数,则输出最优特征子集;否则重复步骤(2)~步骤(6)。2.根据权利要求1所述的基于人工蜂群算法的数据特征选择方法,其特征在于,所述步骤(1)的具体为:对数据集中的每一维特征值映射至[0,1]范围,即f'=(f-fmin)/(fmax-fmin),其中,f'为该维特征映射后的值,f为该维特征未映射前的值,fmin为该维特征在数据集中的最小值,fmax为该维特征在数据集中的最大值。3.根据权利要求1所述的基于人工蜂群算法的数据特征选择方法,其特征在于,所述步骤(2)中初始化产生一组采蜜蜂位置具体为:针对特征选择这一组合优化问题,对采蜜蜂位...

【专利技术属性】
技术研发人员:陈杰周武能陆康迪
申请(专利权)人:东华大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1