一种基于人工蜂群算法的数据特征选择方法技术

技术编号：15287820 阅读：76 留言：0更新日期：2017-05-10 12:03

本发明专利技术涉及一种基于人工蜂群算法的数据特征选择方法，包括以下步骤：确定人工蜂群算法的控制参数，将获得的数据集进行预约归一化处理；初始化产生一组采蜜蜂位置，依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值，并将其对应的开采次数置为零；基于人工蜂群算法的更新方式，更新采蜜蜂位置，计算新个体的适应度值并更新其开采次数；计算选择概率模型函数，并选择一个采蜜蜂作为观察蜂，更新观察蜂位置，计算新个体的适应度值并更新其开采次数；观察开采次数，实施采蜜蜂位置更新机制；保留目前为止最优解位置，即代表最优特征子集；若达到最大迭代次数，则输出最优特征子集；否则重复以上步骤。本发明专利技术能够降低特征选择方法的复杂性。

Data feature selection method based on artificial bee colony algorithm

The invention relates to a method for selecting data features based on artificial bee colony algorithm, which comprises the following steps: determining the control parameters of the artificial bee colony algorithm, the data set is normalized to make an appointment; initialization produces a group of bees, selection and calculation of every bees fitness fitness value basis for the selection of features. And the corresponding number of mining is zero; update method based on artificial bee colony algorithm, update the bees, calculating individual fitness value and update its mining number; probability model selection calculation function, and select a bees bee bee as the observation, observation update position, calculating individual fitness value and update the number of times of mining; observation of mining, the implementation of bees location update mechanism; keep far optimal position, which represents the optimal feature Subset; if the maximum number of iterations is reached, the output of the feature subset; otherwise, repeat the above steps. The invention can reduce the complexity of the feature selection method.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，特别是涉及一种基于人工蜂群算法的数据特征选择方法。
技术介绍
近年来，数据挖掘技术在商业智能、生物医疗和基因检测等领域得到了的广泛应用，而如何从大规模数据中进行降维，以得到有效的简化数据，正变得越来越重要。在许多实际应用中，存储于数据库中的数据集往往拥有成千甚至上万个特征，但并不是所有的特征都对发现隐藏于数据背后的重要信息有帮助。由于只有小部分特征代表着整个高维特征空间的分布特性，这些需要被删选掉的特征，不仅在学习算法对知识发现的过程中增加了干扰，也增加了学习结果的复杂性和不可解释性。特征选择作为一种关键的数据分析方法和预处理手段，在对数据进行知识挖掘之前，通过从原始数据特征集合中选择其中的一个最优特征子集，不但可以消除数据噪声的干扰、剔除冗余和无关的特征，也可以大大降低后续数据处理的复杂度，减小运行时间，并提高数据分析的准确性和有效性。目前，特征选择已成功地应用于图像分类、聚类分析、模式识别和图片检索等场合，帮助研究人员从大规模数据集中挑选出最好的一组特征子集，简化应用过程，从而更好地理解学习算法的结果。特征选择方法可以分为过滤式和封装式两种模式。过滤式是基于数据的统计特性，如计算信息熵、距离等度量指标来赋予各个特征不同的权重，以此来决定特征是否应该被保留或剔除，所以是一种独立于学习算法之外的特征选择方法。与过滤式不同的是，封装式则利用学习算法来甄别出有用的特征，将特征选择问题建模为一个典型的组合优化问题，通过基于学习算法的特征选择搜索方法，寻找到最优特征子集。总的来说，封装式可以比过滤式取得更好的学习结果，这是因为封装...
一种基于人工蜂群算法的数据特征选择方法

【技术保护点】
一种基于人工蜂群算法的数据特征选择方法，其特征在于，包括以下步骤：(1)确定人工蜂群算法的控制参数，将获得的数据集进行预约归一化处理；(2)初始化产生一组采蜜蜂位置，依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值，并将其对应的开采次数置为零；(3)基于人工蜂群算法的更新方式，更新采蜜蜂位置，计算新个体的适应度值并更新其开采次数；(4)计算选择概率模型函数，依概率模型函数选择一个采蜜蜂作为观察蜂，更新观察蜂位置，计算新个体的适应度值并更新其开采次数；(5)观察开采次数，实施采蜜蜂位置更新机制；(6)保留目前为止最优解位置，即代表最优特征子集；(7)若达到最大迭代次数，则输出最优特征子集；否则重复步骤(2)～步骤(6)。

【技术特征摘要】
1.一种基于人工蜂群算法的数据特征选择方法，其特征在于，包括以下步骤：(1)确定人工蜂群算法的控制参数，将获得的数据集进行预约归一化处理；(2)初始化产生一组采蜜蜂位置，依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值，并将其对应的开采次数置为零；(3)基于人工蜂群算法的更新方式，更新采蜜蜂位置，计算新个体的适应度值并更新其开采次数；(4)计算选择概率模型函数，依概率模型函数选择一个采蜜蜂作为观察蜂，更新观察蜂位置，计算新个体的适应度值并更新其开采次数；(5)观察开采次数，实施采蜜蜂位置更新机制；(6)保留目前为止最优解位置，即代表最优特征子集；(7)若达到最大迭代次数，则输出最优特征子集；否则重复步骤(2)～步骤(6)。2.根据权利要求1所述的基于人工蜂群算法的数据特征选择方法，其特征在于，所述步骤(1)的具体为：对数据集中的每一维特征值映射至[0,1]范围，即f'＝(f-fmin)/(fmax-fmin)，其中，f'为该维特征映射后的值，f为该维特征未映射前的值，fmin为该维特征在数据集中的最小值，fmax为该维特征在数据集中的最大值。3.根据权利要求1所述的基于人工蜂群算法的数据特征选择方法，其特征在于，所述步骤(2)中初始化产生一组采蜜蜂位置具体为：针对特征选择这一组合优化问题，对采蜜蜂位...

【专利技术属性】
技术研发人员：陈杰，周武能，陆康迪，
申请(专利权)人：东华大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人