当前位置: 首页 > 专利查询>深圳大学专利>正文

一种多元离散的特征选择方法、装置、设备及存储介质制造方法及图纸

技术编号:20243007 阅读:29 留言:0更新日期:2019-01-29 23:31
本发明专利技术适用机器学习技术领域,提供了一种多元离散的特征选择方法、装置、设备及存储介质,该方法包括:根据寻找到目标数据集中每个特征对应的切点对粒子群进行初始化,获得每个粒子的粒子位置,根据粒子位置对目标数据集进行数据离散,得到对应的离散数据集,根据离散数据集,通过适应度公式计算每个粒子的适应度,以找到粒子群的种群最优位置和每个粒子所经过的个体最优位置,当满足停止条件时,输出种群最优位置,以作为目标数据集选择出的特征,否则,根据种群最优位置和个体最优位置,更新每个粒子的粒子位置,并继续执行数据离散和寻优的操作,从而实现选择更少的特征,提高冗余特征与无关特征的消除效果,进而提高分类学习算法的正确率。

【技术实现步骤摘要】
一种多元离散的特征选择方法、装置、设备及存储介质
本专利技术属于机器学习
,尤其涉及一种多元离散的特征选择方法、装置、设备及存储介质。
技术介绍
随着大数据时代的来临,数据的重要性日益凸显,海量的数据推动着信息社会的发展,然而数据维度的不断增长,“维度灾难”将无法避免。近年来,机器学习被应用于各种大数据场景之中,例如,DNA微阵列分析、图像分类、文本分类等,由于这些数据具有较高的数据维度,同时数据中存在一些不相关的数据特征和冗余特征,直接使用原始的数据将会影响学习算法的效率和性能,因此,在机器学习过程中,需要对原始数据进行特征选择、数据离散等一系列预处理操作,以减少数据特征数量,使得学习算法可以生成一个较好的数据模型,从而提高算法的执行效率和算法的拟合精度。特征选择也叫特征子集选择(FeatureSubsetSelection,简称FSS),例如一个数据存在N个特征,那么该数据就具有(2N-1)个特征子集可供选择。特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。特征选择的任务实际是一个组合优化问题,特征选择过程中,由于特征数目繁多,搜索空间较大,所以需要搜索算法去获得最优的选择方案,存在的搜索方法有序列前向选择(SFS)和序列后向选择(SBS),然而这些算法不仅需要很大的计算代价,同时容易陷入局部最优,因此需要具有全局搜索能力的启发式搜索算法应用到特征选择中。粒子群算法(ParticleSwarmOptimization,简称PSO)是近年来由J.Kennedy和R.CEberhart提出的一种新的进化算法(EvolutionaryAlgorithm,简称EA),其凭借算法简单、快速等优势已广泛应用于特征选择中,粒子群算法将问题的每个可能解当作一个粒子,然后通过一个适应度函数Fiteness评价粒子的好坏,它通过记录每个粒子所经过的最佳位置(pbest)和种群经过的最佳位置(gbest)来进行引导粒子更新。常见的使用PSO来进行特征选择的算法有连续PSO(ContinuousPSO)和二进制PSO(BinaryPSO),这些算法证明了类似PSO的启发式搜索算法可以在特征选择上取得较好的效果。然而这些算法在处理数据维度非常高的数据集(例如医学基因数据)时,仍无法取得比较好的效果。因此,J.Kennedy提出了一种基于PSO算法的改进算法----骨干粒子群优化算法(Bare-BoneParticleSwarmOptimization,简称BBPSO),相比于PSO算法,它拥有更简单的更新机制和更快的收敛速度,BinhTran等人提出了基于BBPSO的特征选择算法----进化粒子群算法(EvolveParticleSwarmOptimization,简称EPSO)和对EPSO算法改进的潜在粒子群优化(PotentialParticleSwarmOptimization,简称PPSO)算法,相比较传统的特征选择算法,这两个算法能快速的去除掉那些冗余特征和不相关特征,特别是在高特征维度的数据集中,具有非常好的效果。PPSO相较于EPSO改进了粒子的初始化方案,PPSO采用Fayyad和Irani提出的最小描述长度(MinimalDescriptionLength,简称MDL)算法来计算符合最小描述长度准则(MinimumDescriptionLengthPrinciple,简称MDLP)的分割点,以此来离散特征数据,由于MDL是通过信息增益的方式来进行切点的选择,所以训练集所包含的不同信息将会对该算法造成比较大的影响,且PPSO算法是一个二元离散的特征选择算法,其使用将特征离散为多元的分割点来进行二元离散,在处理高维度数据时,可能会导致部分特征的信息丢失,且无法有效的去除存在相关性的相关特征和关联特征,从而影响结果的准确性。
技术实现思路
本专利技术的目的在于提供一种多元离散的特征选择方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的特征选择方法,导致无关特征与冗余特征的消除效果差,分类结果不准确的问题。一方面,本专利技术提供了一种多元离散的特征选择方法,所述方法包括下述步骤:当接收到对用户输入的目标数据集进行特征选择的请求时,通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点;根据寻找到的所述切点,对预设数量个粒子的粒子群进行随机初始化,获得所述粒子群中每个粒子的粒子位置,并根据所述粒子位置对所述目标数据集进行数据离散,得到所述目标数据集对应的离散数据集;根据所述离散数据集,通过预设的适应度公式计算所述每个粒子的适应度,以找到所述粒子群的种群最优位置和所述每个粒子所经过的个体最优位置;判断是否满足预设的停止条件,是则,输出所述粒子群的种群最优位置,将所述种群最优位置设置为所述目标数据集选择出的特征,否则,根据所述种群最优位置和所述个体最优位置,对所述每个粒子的粒子位置进行更新,并跳转至根据所述粒子位置对所述数据集进行数据离散的步骤。另一方面,本专利技术提供了一种多元离散的特征选择装置,所述装置包括:切点寻找单元,用于当接收到对用户输入的目标数据集进行特征选择的请求时,通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点;初始化及离散单元,用于根据寻找到的所述切点,对预设数量个粒子的粒子群进行随机初始化,获得所述粒子群中每个粒子的粒子位置,并根据所述粒子位置对所述目标数据集进行数据离散,得到所述目标数据集对应的离散数据集;适应度计算单元,用于根据所述离散数据集,通过预设的适应度公式计算所述每个粒子的适应度,以找到所述粒子群的种群最优位置和所述每个粒子所经过的个体最优位置;以及停止条件判断单元,用于判断是否满足预设的停止条件,是则,输出所述粒子群的种群最优位置,将所述种群最优位置设置为所述目标数据集选择出的特征,否则,根据所述种群最优位置和所述个体最优位置,对所述每个粒子的粒子位置进行更新,并触发数据离散单元执行根据所述粒子位置对所述数据集进行数据离散的步骤。另一方面,本专利技术还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述多元离散的特征选择方法所述的步骤。另一方面,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述多元离散的特征选择方法所述的步骤。本专利技术通过最小描述长度算法寻找用户输入的目标数据集中每个特征对应的切点,根据寻找到的切点对粒子群进行随机初始化,获得粒子群中每个粒子的粒子位置,根据粒子位置对目标数据集进行数据离散,得到目标数据集对应的离散数据集,根据离散数据集,通过适应度公式计算每个粒子的适应度,以找到粒子群的种群最优位置和每个粒子所经过的个体最优位置,判断是否满足预设的停止条件,是则,输出种群最优位置,并将种群最优位置设置为目标数据集选择出的特征,否则,根据种群最优位置和个体最优位置,对每个粒子的粒子位置进行更新,继续执行数据离散和寻优的操作,从而实现选择更少的特征,提高冗余特征与无关特征的消除效果,进而提高分类学习算法的正确率。本文档来自技高网
...

【技术保护点】
1.一种多元离散的特征选择方法,其特征在于,所述方法包括下述步骤:当接收到对用户输入的目标数据集进行特征选择的请求时,通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点;根据寻找到的所述切点,对预设数量个粒子的粒子群进行随机初始化,获得所述粒子群中每个粒子的粒子位置,并根据所述粒子位置对所述目标数据集进行数据离散,得到所述目标数据集对应的离散数据集;根据所述离散数据集,通过预设的适应度公式计算所述每个粒子的适应度,以找到所述粒子群的种群最优位置和所述每个粒子所经过的个体最优位置;判断是否满足预设的停止条件,是则,输出所述粒子群的种群最优位置,将所述种群最优位置设置为所述目标数据集选择出的特征,否则,根据所述种群最优位置和所述个体最优位置,对所述每个粒子的粒子位置进行更新,并跳转至根据所述粒子位置对所述数据集进行数据离散的步骤。

【技术特征摘要】
1.一种多元离散的特征选择方法,其特征在于,所述方法包括下述步骤:当接收到对用户输入的目标数据集进行特征选择的请求时,通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点;根据寻找到的所述切点,对预设数量个粒子的粒子群进行随机初始化,获得所述粒子群中每个粒子的粒子位置,并根据所述粒子位置对所述目标数据集进行数据离散,得到所述目标数据集对应的离散数据集;根据所述离散数据集,通过预设的适应度公式计算所述每个粒子的适应度,以找到所述粒子群的种群最优位置和所述每个粒子所经过的个体最优位置;判断是否满足预设的停止条件,是则,输出所述粒子群的种群最优位置,将所述种群最优位置设置为所述目标数据集选择出的特征,否则,根据所述种群最优位置和所述个体最优位置,对所述每个粒子的粒子位置进行更新,并跳转至根据所述粒子位置对所述数据集进行数据离散的步骤。2.如权利要求1所述的方法,其特征在于,通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点的步骤之前,所述方法还包括:根据所述目标数据集中目标数据对应特征的特征值,对所述目标数据进行排序,以获得排序后的目标数据集。3.如权利要求1所述的方法,其特征在于,所述适应度公式为Fitness=μ×balanced_accuracy+(1-μ)distance-β×selection_proportion,其中,balanced_accuracy为平衡分类精度,μ为预设的、平衡分类精度balanced_accuracy的权重系数,distance为所述离散数据集中离散数据间的距离,selection_proportion为特征选择的比例,β为预设的、特征选择比例selection_proportion的权重系数。4.如权利要求1所述的方法,其特征在于,输出所述粒子群的种群最优位置的步骤之前,所述方法还包括:当所述种群最优位置达到预设的缩放条件时,增加所述粒子群的粒子数,并跳转至对预设数量个粒子的粒子群进行随机初始化的步骤。5.一种多元离散的特征选择装置,其特征在于,所述装置包括:切点寻找单元,用于当接收到对用户输入的目标数据集进行特征选择的请求时,通过最小描述长度算法寻找所述目标数据集中每个特征对应的...

【专利技术属性】
技术研发人员:亢俊皓周宇郭海男林继平
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1