一种数据特征的选择方法及系统技术方案

技术编号:18459091 阅读:30 留言:0更新日期:2018-07-18 12:49
本发明专利技术公开了一种数据特征的选择方法及系统,数据特征的选择方法包括:首先获取数据集,数据集包括若干个数据,数据包括若干个数据特征;对各数据特征进行0‑1标准化处理;设置阈值;获取飞蛾种群,飞蛾种群包括若干飞蛾个体,飞蛾个体包括若干飞蛾特征;筛选飞蛾特征;根据筛选出的飞蛾特征选择数据特征;通过分类器计算选择出的数据特征的正确率;计算获取飞蛾种群的次数,判断获取飞蛾种群的次数是否小于所述阈值,若是,更新飞蛾种群,然后返回步骤“筛选飞蛾特征”;否则,输出所述选择出的数据特征的正确率最高的数据特征。本发明专利技术提出的数据特征的选择方法及系统大大提高了数据特征选择的精确度,缩短了获取数据特征的时间。

A method and system for the selection of data features

The invention discloses a selection method and system for data features. The selection methods of data features include: first obtaining data sets, data sets including several data, data including several data features, 0 standardized 1 processing for each data feature, threshold setting, acquisition of moth population, and a number of moths including a number of moths The individual of the moth, the moth individual includes the characteristics of a number of moths; screening the characteristics of the moth; selecting the characteristics of the moth according to the characteristics of the selected moth; calculating the correct rate of the selected data by the classifier; calculating the number of moths to obtain the number of moths, judging whether the number of the moth population is less than the threshold value, if, if, updated The moth population is then returned to \screening moths characteristics\; otherwise, it outputs the highest accuracy data characteristics of the selected data characteristics. The data feature selection method and system proposed by the invention greatly improve the accuracy of data feature selection and shorten the time of obtaining data characteristics.

【技术实现步骤摘要】
一种数据特征的选择方法及系统
本专利技术涉及数据挖掘领域,特别是涉及一种数据特征的选择方法及系统。
技术介绍
特征选择也称特征子集选择或属性选择,是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对数据特征优化就是找到数据中贡献度大的特征,去掉一些冗余特征甚至噪声特征,目前特征优化的主要算法有二进制粒子群优化算法、遗传算法、二进制灰狼优化算法、二进制布谷鸟优化算法等,但它们应用于数据特征选择时都存在一些问题,例如数据特征选择的精确度不高,获取数据特征的时间长。因此,如何提高数据特征选择的精确度,缩短获取数据特征的时间,成为本领域技术人员亟需解决的技术问题。
技术实现思路
基于此,有必要提供一种数据特征的选择方法及系统,提高数据特征选择的精确度,缩短获取数据特征的时间。为实现上述目的,本专利技术提供了如下方案:一种数据特征的选择方法,包括:获取数据集,所述数据集包括若干个数据,所述数据包括若干个数据特征;对各所述数据特征进行0-1标准化处理,得到在0到1范围内标准化数据特征;设置阈值;获取飞蛾种群,并从所述飞蛾种群中筛选飞蛾特征,根据筛选出的飞蛾特征选择数据特征,所述飞蛾种群包括若干个飞蛾个体,所述飞蛾个体包括若干个飞蛾特征;将选择出的数据特征放到分类器中,计算选择出的数据特征的正确率;计算获取飞蛾种群的次数,比较获取飞蛾种群的次数与所述阈值的大小,若获取飞蛾种群的次数小于所述阈值,则更新飞蛾种群,更新飞蛾种群后返回步骤“筛选飞蛾特征”;否则,从所述选择出的各数据特征的正确率中确定正确率最高的数据特征。可选的,所述数据特征包括数值型数据特征和字符串数据特征;将所述字符串数据特征对应成数值型数据特征;对各所述数据特征进行0-1标准化处理的具体公式如下:其中,p为当前数值,qA为数值型数据中的最小数值,QA为数值型数据中的最大数值,p'为0-1标准化处理后的数值;可选的,所述获取飞蛾种群,并从所述飞蛾种群中筛选飞蛾特征,根据筛选出的飞蛾特征选择数据特征,具体包括:根据以下公式对所述飞蛾种群进行初始化,确定飞蛾种群:其中,xi为第i个飞蛾个体的飞蛾特征,rand()为随机数;所述飞蛾个体的每一飞蛾特征为0或1,1表示选择飞蛾特征,0表示不选择飞蛾特征;所述每个飞蛾个体的飞蛾特征与数据特征一一对应,选择飞蛾特征表示选择与飞蛾特征对应的数据特征,不选择飞蛾特征表示不选择与飞蛾特征对应的数据特征。可选的,所述更新飞蛾种群具体包括:根据所述数据特征的正确率计算飞蛾个体的适应度值,将飞蛾个体的适应度值按照由大到小的顺序排序;获取每个飞蛾特征的当前速度,所述每个飞蛾特征的速度用于更新飞蛾特征;获取火焰,所述火焰有若干个火焰个体,所述火焰个体有若干个火焰特征,所述火焰个体数量与所述飞蛾个体数量相同,所述火焰个体与所述飞蛾个体一一对应,所述每个火焰个体的适应度值与其对应的飞蛾个体的适应度值相等,所述每个火焰个体的火焰特征与其对应的飞蛾个体的飞蛾特征相同;更新飞蛾个体数量,根据计算出的飞蛾个体的适应度值生成第一飞蛾种群;获取并保存所述第一飞蛾种群中适应度值最大的飞蛾个体,将其作为所有飞蛾的最优个体;获取并保存所述第一飞蛾种群中每个飞蛾个体自身的适应度值最大的飞蛾个体,将其作为每个飞蛾个体的最优个体;根据所有飞蛾的最优个体的飞蛾特征、每个飞蛾个体的最优个体的飞蛾特征和每个飞蛾特征的当前速度更新每个飞蛾特征的速度;根据更新后的每个飞蛾特征的速度和所述每个飞蛾个体的当前特征,计算每个飞蛾个体更新后的飞蛾特征;根据每个飞蛾个体更新后的飞蛾特征和所述火焰特征计算飞蛾特征与火焰特征之间的距离;根据更新后的飞蛾特征与火焰特征之间的距离更新飞蛾特征;将更新后的飞蛾特征做二进制转化处理,生成第二飞蛾种群。可选的,所述根据所述数据特征的正确率计算飞蛾个体的适应度值的具体计算公式如下:其中,fitness(i)为第i个飞蛾个体的正确率,λ为数据特征的数量;所述更新飞蛾个体数量的具体计算公式如下:其中,no为更新后的飞蛾个体数量,N为当前飞蛾个体数量,k为当前获取飞蛾种群的次数,T为阈值。可选的,所述更新每个飞蛾特征的速度的具体计算公式如下:其中,ω、c1、c2为自定义参数,k表示当前获取飞蛾种群的次数,表示在第k次获取飞蛾种群时第i个飞蛾个体第j维分量的更新后的速度,表示在第k次获取飞蛾种群时第i个飞蛾个体第j维分量的速度,为在第k次获取飞蛾种群时第i个飞蛾个体第j个飞蛾特征的每个飞蛾个体的最优个体的飞蛾特征,为到第k次获取飞蛾种群为止的所有飞蛾个体第j个飞蛾特征的所有飞蛾的最优个体的飞蛾特征,为第i个飞蛾个体的第j个飞蛾特征;所述计算每个飞蛾个体更新后的飞蛾特征的具体计算公式如下:其中,为在第k次获取飞蛾种群时第i个飞蛾个体更新后的第j个飞蛾特征,为在第k次获取飞蛾种群时第i个飞蛾个体第j个飞蛾特征;所述计算飞蛾特征与火焰特征之间的距离的具体计算公式如下:D=F-M其中,所述F为火焰特征,M为飞蛾特征;所述根据飞蛾特征与火焰特征之间的距离更新飞蛾特征的具体计算公式如下:其中,为在第k次获取飞蛾种群时第i个飞蛾个体根据飞蛾特征与火焰特征之间的距离更新后的第j个飞蛾特征,b为自定义参数,t为随机数,-1<t<1;所述将更新后的飞蛾特征做二进制转化处理的具体计算公式如下:本专利技术还提供一种数据特征的选择系统,包括:数据集获取模块,用于获取数据集;数据特征处理模块,所述数据特征处理模块与所述数据集获取模块相连,用于数据集获取模块获取的数据集的各数据特征进行0-1标准化处理,得到在0到1范围内标准化数据特征;阈值设置模块,用于设置阈值;飞蛾特征获取模块,用于获取飞蛾种群,并从所述飞蛾种群中筛选飞蛾特征,根据筛选出的飞蛾特征选择数据特征,所述飞蛾种群包括若干个飞蛾个体,所述飞蛾个体包括若干个飞蛾特征;数据特征正确率输出模块,所述数据特征正确率输出模块与所述飞蛾特征获取模块相连,用于将所述飞蛾特征获取选择出的数据特征放到分类器中,计算选择出的数据特征的正确率;获取飞蛾种群的次数计算模块,所述获取飞蛾种群的次数计算模块与所述飞蛾特征获取模块相连,用于获取飞蛾特征获取模块中获取飞蛾种群的次数;判断模块,所述判断模块与所述获取飞蛾种群的次数计算模块、所述阈值设置模块相连,用于判断获取飞蛾种群的次数与阈值设置模块设置的阈值的大小;若判断出获取飞蛾种群的次数小于所述阈值,则将指令发送至更新飞蛾种群模块;否则,则将指令发送至数据特征生成模块;数据特征生成模块,所述数据特征生成模块与所述判断模块、所述数据特征正确率输出模块相连,用于接收判断模块传送的指令,从选择出的各数据特征的正确率中确定正确率最高的数据特征;更新飞蛾种群模块,所述更新飞蛾种群模块与所述判断模块相连,用于接收判断模块传送的指令,并更新飞蛾种群模块。可选的,所述数据特征处理模块用于处理数值型数据特征和字符串数据特征,将所述字符串数据特征对应成数值型数据特征;对各所述数据特征进行0-1标准化处理的具体公式如下:其中,p为当前数值,qA为数值型数据中的最小数值,QA为数值型数据本文档来自技高网...

【技术保护点】
1.一种数据特征的选择方法,其特征在于,包括:获取数据集,所述数据集包括若干个数据,所述数据包括若干个数据特征;对各所述数据特征进行0‑1标准化处理,得到在0到1范围内标准化数据特征;设置阈值;获取飞蛾种群,并从所述飞蛾种群中筛选飞蛾特征,根据筛选出的飞蛾特征选择数据特征,所述飞蛾种群包括若干个飞蛾个体,所述飞蛾个体包括若干个飞蛾特征;将选择出的数据特征放到分类器中,计算选择出的数据特征的正确率;计算获取飞蛾种群的次数,比较获取飞蛾种群的次数与所述阈值的大小,若获取飞蛾种群的次数小于所述阈值,则更新飞蛾种群,更新飞蛾种群后返回步骤“筛选飞蛾特征”;否则,从所述选择出的各数据特征的正确率中确定正确率最高的数据特征。

【技术特征摘要】
1.一种数据特征的选择方法,其特征在于,包括:获取数据集,所述数据集包括若干个数据,所述数据包括若干个数据特征;对各所述数据特征进行0-1标准化处理,得到在0到1范围内标准化数据特征;设置阈值;获取飞蛾种群,并从所述飞蛾种群中筛选飞蛾特征,根据筛选出的飞蛾特征选择数据特征,所述飞蛾种群包括若干个飞蛾个体,所述飞蛾个体包括若干个飞蛾特征;将选择出的数据特征放到分类器中,计算选择出的数据特征的正确率;计算获取飞蛾种群的次数,比较获取飞蛾种群的次数与所述阈值的大小,若获取飞蛾种群的次数小于所述阈值,则更新飞蛾种群,更新飞蛾种群后返回步骤“筛选飞蛾特征”;否则,从所述选择出的各数据特征的正确率中确定正确率最高的数据特征。2.根据权利要求1所述的数据特征的选择方法,其特征在于,所述数据特征包括数值型数据特征和字符串数据特征;将所述字符串数据特征对应成数值型数据特征;对各所述数据特征进行0-1标准化处理的具体公式如下:其中,p为当前数值,qA为数值型数据中的最小数值,QA为数值型数据中的最大数值,p'为0-1标准化处理后的数值。3.根据权利要求1所述的数据特征的选择方法,其特征在于,所述获取飞蛾种群,并从所述飞蛾种群中筛选飞蛾特征,根据筛选出的飞蛾特征选择数据特征,具体包括:根据以下公式对所述飞蛾种群进行初始化,确定飞蛾种群:其中,xi为第i个飞蛾个体的飞蛾特征,rand()为随机数。所述飞蛾个体的每一飞蛾特征为0或1,1表示选择飞蛾特征,0表示不选择飞蛾特征;所述每个飞蛾个体的飞蛾特征与数据特征一一对应,选择飞蛾特征表示选择与飞蛾特征对应的数据特征,不选择飞蛾特征表示不选择与飞蛾特征对应的数据特征。4.根据权利要求1所述的数据特征的选择方法,其特征在于,所述更新飞蛾种群具体包括:根据所述数据特征的正确率计算飞蛾个体的适应度值,将飞蛾个体的适应度值按照由大到小的顺序排序;获取每个飞蛾特征的当前速度,所述每个飞蛾特征的速度用于更新飞蛾特征;获取火焰,所述火焰有若干个火焰个体,所述火焰个体有若干个火焰特征,所述火焰个体数量与所述飞蛾个体数量相同,所述火焰个体与所述飞蛾个体一一对应,所述每个火焰个体的适应度值与其对应的飞蛾个体的适应度值相等,所述每个火焰个体的火焰特征与其对应的飞蛾个体的飞蛾特征相同;更新飞蛾个体数量,根据计算出的飞蛾个体的适应度值生成第一飞蛾种群;获取并保存所述第一飞蛾种群中适应度值最大的飞蛾个体,将其作为所有飞蛾的最优个体;获取并保存所述第一飞蛾种群中每个飞蛾个体自身的适应度值最大的飞蛾个体,将其作为每个飞蛾个体的最优个体;根据所有飞蛾的最优个体的飞蛾特征、每个飞蛾个体的最优个体的飞蛾特征和每个飞蛾特征的当前速度更新每个飞蛾特征的速度;根据更新后的每个飞蛾特征的速度和所述每个飞蛾个体的当前特征,计算每个飞蛾个体更新后的飞蛾特征;根据每个飞蛾个体更新后的飞蛾特征和所述火焰特征计算飞蛾特征与火焰特征之间的距离;根据更新后的飞蛾特征与火焰特征之间的距离更新飞蛾特征;将更新后的飞蛾特征做二进制转化处理,生成第二飞蛾种群。5.根据权利要求4所述的数据特征的选择方法,其特征在于,所述根据所述数据特征的正确率计算飞蛾个体的适应度值的具体计算公式如下:其中,fitness(i)为第i个飞蛾个体的正确率,λ为数据特征的数量;所述更新飞蛾个体数量的具体计算公式如下:其中,no为更新后的飞蛾个体数量,N为当前飞蛾个体数量,k为当前获取飞蛾种群的次数,T为阈值。6.根据权利要求4所述的数据特征的选择方法,其特征在于,所述更新每个飞蛾特征的速度的具体计算公式如下:其中,ω、c1、c2为自定义参数,k表示当前获取飞蛾种群的次数,表示在第k次获取飞蛾种群时第i个飞蛾个体第j维分量的更新后的速度,表示在第k次获取飞蛾种群时第i个飞蛾个体第j维分量的速度,为在第k次获取飞蛾种群时第i个飞蛾个体第j个飞蛾特征的每个飞蛾个体的最优个体的飞蛾特征,为到第k次获取飞蛾种群为止的所有飞蛾个体第j个飞蛾特征的所有飞蛾的最优个体的飞蛾特征,为第i个飞蛾个体的第j个飞蛾特征;所述计算每个飞蛾个体更新后的飞蛾特征的具体计算公式如下:其中,为在第k次获取飞蛾种群时第i个飞蛾个体更新后的第j个飞蛾特征,为在第k次获取飞蛾种群时第i个飞蛾个体第j个飞蛾特征;所述计算飞蛾特征与火焰特征之间的距离的具体计算公式如下:D=F-M其中,所述F为火焰特征,M为飞蛾特征;所述根据飞蛾特征与火焰特征之间的距离更新飞蛾特征的具体计算公式如下:其中,为在第k次获取飞蛾种群时第i个飞蛾个体根据飞蛾特征与火焰特征之间的距离更新后的第j个飞蛾特征,b为自定义参数,t为随机数,-1<t<1;所述将更新后的飞蛾特征做二进制转化处理的具体计算公式如下:7.一种数据特征的选择系统,其特征在于,包括:数据集获取模块,用于获取数据集;数据特征处理模块,所述数据特征处理模块与所述数据集获取模块相连,用于数据集获取模块获取的数据集的各数据特征进行0-1标准化处...

【专利技术属性】
技术研发人员:徐慧方策叶志伟陈宏伟刘翔付迎春苏军宗欣露曹倩倩付朝川
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1