一种基于粒子群算法的多模态特征选择方法技术

技术编号：25804204 阅读：31 留言：0更新日期：2020-09-29 18:38

本发明专利技术公开了一种基于粒子群算法的多模态特征选择方法，选取UCI数据集进行预处理操作并且初始化候选群体，然后采用小生境算法把整个种群划分为多个子种群。在每次迭代时，每个子种群独立搜索寻找所在区域的最优解。在迭代演化时，更新每个小生境的全局最优值和每个个体的历史最优值，然后采用粒子群公式更新每个个体的速度和位置。采用跳跃变异操作帮助群体跳出局部最优区域并且采用分类正确率评估每个个体的质量。满足终止条件后，输出最后一代群体并且设计了一个筛选策略挑选出符合要求的多个最优解。本发明专利技术能找到多组特征解，给决策者提供更多的选项，有效地解决了特征选择的多模态优化问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于粒子群算法的多模态特征选择方法
本专利技术涉及计算智能和分类的
，尤其涉及到一种基于粒子群算法的多模态特征选择方法。
技术介绍
UCI数据库是一个用于机器学习的数据库，包含了488个标准测试数据集，其中有360个数据集被用于分类研究。在定义或描述一类事物时往往会包含多种属性，比如说酒包含颜色，口味，品牌，纯度和甜度等多种属性。如何以更少的属性对数据集进行分类是热门的研究课题。UCI数据集的属性数量和实例数量多则达到上百万，如果根据所有的属性对数据集进行分类会急剧增加分类的成本和难度。在对数据集的分类研究中，并不是所有属性都是有用的。数据集的属性和属性之间，属性和类别之间存在着冗余，相关和不相关的的特性。特征选择作为一种数据预处理操作，就是剔除掉冗余的和不相关的特征，留下有用的特征用于分类。筛选出有用的特征，降低数据的维度，有利于减少分类的成本和难度，提高分类正确率。传统的用于解决特征选择问题的方法主要被分为过滤式方法和包装类方法，两者的主要区别在于在评估过程中是否包含分类器。其中，典型的代表有序列浮动选择算法和最大相关最小冗余特征选择算法，但这些传统的特征选择算法存在着容易陷入局部最优的问题。近年来，各种各样的计算智能算法被广泛应用于特征选择研究。其中，粒子群算法是一种常用的仿生算法，模仿自然界中鸟类和鱼群的捕食行为。粒子群算法的核心思想是创建初始候选群体，然后不断地迭代演化，通过群体中个体之间的协作和信息共享寻找最优解。粒子群算法因为计算代价小，收敛速度快和算法结构简单易实现地特点，被...

【技术保护点】
1.一种基于粒子群算法的多模态特征选择方法，其特征在于，包括以下步骤：/nS1、对UCI数据库数据集中的数据进行预处理；/nS2、根据用户要求设置参数，包括群体大小，迭代次数，独立运行次数；然后初始化候选群体，包括粒子的速度和位置，内部权重w，加速系数c1和c2；/nS3、采用基于拥挤度的集群小生境算法把整个候选种群划分为多个子种群；/nS4、更新每个粒子的历史最优位置pbest；/nS5、更新每个小生境的全局最优位置lbest；/nS6、更新粒子的速度以及位置；/nS7、进行跳跃变异操作；/nS8、根据评估函数计算每个个体的适应值，采用分类正确率作为筛选个体的评价指标；/nS9、判断是否达到用户设置的迭代次数和独立运行次数；若达到满足条件，则输出最后一代的群体，然后根据分类正确率的误差范围δ和解差分度θ筛选出多个差分度较大的最优解，否则就回到步骤S3。/n

【技术特征摘要】
1.一种基于粒子群算法的多模态特征选择方法，其特征在于，包括以下步骤：
S1、对UCI数据库数据集中的数据进行预处理；
S2、根据用户要求设置参数，包括群体大小，迭代次数，独立运行次数；然后初始化候选群体，包括粒子的速度和位置，内部权重w，加速系数c1和c2；
S3、采用基于拥挤度的集群小生境算法把整个候选种群划分为多个子种群；
S4、更新每个粒子的历史最优位置pbest；
S5、更新每个小生境的全局最优位置lbest；
S6、更新粒子的速度以及位置；
S7、进行跳跃变异操作；
S8、根据评估函数计算每个个体的适应值，采用分类正确率作为筛选个体的评价指标；
S9、判断是否达到用户设置的迭代次数和独立运行次数；若达到满足条件，则输出最后一代的群体，然后根据分类正确率的误差范围δ和解差分度θ筛选出多个差分度较大的最优解，否则就回到步骤S3。

2.根据权利要求1所述的一种基于粒子群算法的多模态特征选择方法，其特征在于，所述步骤S1数据预处理的具体步骤如下：
S1-1、把非数据值统一转换为数据值，对缺失值填充为0；
S1-2、对每个属性进行数据归一化操作，统一落在[-1，1]区间；
S1-3、按照LIBSVM格式提取出属性值和类别值，并且把数据保存在外部文档。

3.根据权利要求1所述的一种基于粒子群算法的多模态特征选择方法，其特征在于，所述步骤S3中，在划分种群时把每个个体的连续实值转换为二进制字符串，然后用汉明距离计算个体与参考点的距离；
转换公式如下：

其中，表示第i个粒子第d维的二进制值，表示第i个粒子第d维的位置，比特位0表示该特征不被选择，比特位1表示该特征被选进特征子集。

4.根据权利要求1所述的一种基于粒子群算法的多模态特征选择方法，其特征在于，所述步骤S4中，更新历史最优位置pbest时考虑上适应值的大小以及特征数的大小；
更新公式如下：

其中，fit(pbesti(t))表示在第t代第i个粒子的历史适应值，fit(xi(t+1))表示在第t代第i个粒子的当前适应值；num(xi(t+1))表示在第t+1代第i个粒子的位置所对应的特征数；num(pbesti(t))表示在第t代第i个粒子的历史最优位置所对应的特征数；xi(t+1)表示在第t+1代第i个粒子的位置，pbesti(t)表示在第t代第i个粒子的历史最优位置；pbesti(t+1)表示在第t+1代第i个粒子的历史最优位置；
若粒子记录的历史最优值比粒子当前适应值要小，便采用粒子当前适应值更新历史最优值；若粒子记录的历史最优值和粒子当前适应值相等，便考虑pbest对应的特征数和x对应的特征数的大小，选两者较小的更新pbes...

【专利技术属性】
技术研发人员：胡晓敏，张首荣，陈伟能，李敏，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人