The invention relates to a method for selecting data features based on artificial bee colony algorithm, which comprises the following steps: determining the control parameters of the artificial bee colony algorithm, the data set is normalized to make an appointment; initialization produces a group of bees, selection and calculation of every bees fitness fitness value basis for the selection of features. And the corresponding number of mining is zero; update method based on artificial bee colony algorithm, update the bees, calculating individual fitness value and update its mining number; probability model selection calculation function, and select a bees bee bee as the observation, observation update position, calculating individual fitness value and update the number of times of mining; observation of mining, the implementation of bees location update mechanism; keep far optimal position, which represents the optimal feature Subset; if the maximum number of iterations is reached, the output of the feature subset; otherwise, repeat the above steps. The invention can reduce the complexity of the feature selection method.
【技术实现步骤摘要】
本专利技术涉及数据处理
,特别是涉及一种基于人工蜂群算法的数据特征选择方法。
技术介绍
近年来,数据挖掘技术在商业智能、生物医疗和基因检测等领域得到了的广泛应用,而如何从大规模数据中进行降维,以得到有效的简化数据,正变得越来越重要。在许多实际应用中,存储于数据库中的数据集往往拥有成千甚至上万个特征,但并不是所有的特征都对发现隐藏于数据背后的重要信息有帮助。由于只有小部分特征代表着整个高维特征空间的分布特性,这些需要被删选掉的特征,不仅在学习算法对知识发现的过程中增加了干扰,也增加了学习结果的复杂性和不可解释性。特征选择作为一种关键的数据分析方法和预处理手段,在对数据进行知识挖掘之前,通过从原始数据特征集合中选择其中的一个最优特征子集,不但可以消除数据噪声的干扰、剔除冗余和无关的特征,也可以大大降低后续数据处理的复杂度,减小运行时间,并提高数据分析的准确性和有效性。目前,特征选择已成功地应用于图像分类、聚类分析、模式识别和图片检索等场合,帮助研究人员从大规模数据集中挑选出最好的一组特征子集,简化应用过程,从而更好地理解学习算法的结果。特征选择方法可以分为过滤式和封装式两种模式。过滤式是基于数据的统计特性,如计算信息熵、距离等度量指标来赋予各个特征不同的权重,以此来决定特征是否应该被保留或剔除,所以是一种独立于学习算法之外的特征选择方法。与过滤式不同的是,封装式则利用学习算法来甄别出有用的特征,将特征选择问题建模为一个典型的组合优化问题,通过基于学习算法的特征选择搜索方法,寻找到最优特征子集。总的来说,封装式可以比过滤式取得更好的学习结果,这是因为封装 ...
【技术保护点】
一种基于人工蜂群算法的数据特征选择方法,其特征在于,包括以下步骤:(1)确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;(4)计算选择概率模型函数,依概率模型函数选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;(5)观察开采次数,实施采蜜蜂位置更新机制;(6)保留目前为止最优解位置,即代表最优特征子集;(7)若达到最大迭代次数,则输出最优特征子集;否则重复步骤(2)~步骤(6)。
【技术特征摘要】
1.一种基于人工蜂群算法的数据特征选择方法,其特征在于,包括以下步骤:(1)确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;(4)计算选择概率模型函数,依概率模型函数选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;(5)观察开采次数,实施采蜜蜂位置更新机制;(6)保留目前为止最优解位置,即代表最优特征子集;(7)若达到最大迭代次数,则输出最优特征子集;否则重复步骤(2)~步骤(6)。2.根据权利要求1所述的基于人工蜂群算法的数据特征选择方法,其特征在于,所述步骤(1)的具体为:对数据集中的每一维特征值映射至[0,1]范围,即f'=(f-fmin)/(fmax-fmin),其中,f'为该维特征映射后的值,f为该维特征未映射前的值,fmin为该维特征在数据集中的最小值,fmax为该维特征在数据集中的最大值。3.根据权利要求1所述的基于人工蜂群算法的数据特征选择方法,其特征在于,所述步骤(2)中初始化产生一组采蜜蜂位置具体为:针对特征选择这一组合优化问题,对采蜜蜂位...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。