一种多元离散的特征选择方法、装置、设备及存储介质制造方法及图纸

技术编号：20243007 阅读：29 留言：0更新日期：2019-01-29 23:31

本发明专利技术适用机器学习技术领域，提供了一种多元离散的特征选择方法、装置、设备及存储介质，该方法包括：根据寻找到目标数据集中每个特征对应的切点对粒子群进行初始化，获得每个粒子的粒子位置，根据粒子位置对目标数据集进行数据离散，得到对应的离散数据集，根据离散数据集，通过适应度公式计算每个粒子的适应度，以找到粒子群的种群最优位置和每个粒子所经过的个体最优位置，当满足停止条件时，输出种群最优位置，以作为目标数据集选择出的特征，否则，根据种群最优位置和个体最优位置，更新每个粒子的粒子位置，并继续执行数据离散和寻优的操作，从而实现选择更少的特征，提高冗余特征与无关特征的消除效果，进而提高分类学习算法的正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种多元离散的特征选择方法、装置、设备及存储介质
本专利技术属于机器学习
，尤其涉及一种多元离散的特征选择方法、装置、设备及存储介质。
技术介绍
随着大数据时代的来临，数据的重要性日益凸显，海量的数据推动着信息社会的发展，然而数据维度的不断增长，“维度灾难”将无法避免。近年来，机器学习被应用于各种大数据场景之中，例如，DNA微阵列分析、图像分类、文本分类等，由于这些数据具有较高的数据维度，同时数据中存在一些不相关的数据特征和冗余特征，直接使用原始的数据将会影响学习算法的效率和性能，因此，在机器学习过程中，需要对原始数据进行特征选择、数据离散等一系列预处理操作，以减少数据特征数量，使得学习算法可以生成一个较好的数据模型，从而提高算法的执行效率和算法的拟合精度。特征选择也叫特征子集选择(FeatureSubsetSelection，简称FSS)，例如一个数据存在N个特征，那么该数据就具有(2N-1)个特征子集可供选择。特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高学习算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。特征选择的任务实际是一个组合优化问题，特征选择过程中，由于特征数目繁多，搜索空间较大，所以需要搜索算法去获得最优的选择方案，存在的搜索方法有序列前向选择(SFS)和序列后向选择(SBS)，然而这些算法不仅需要很大的计算代价，同时容易陷入局部最优，因此需要具有全局搜索能力的启发式搜索算法应用到特征选择中。粒子群算法(ParticleSwarmOptimization，简称PSO)是近年来由J.Kennedy和...

【技术保护点】
1.一种多元离散的特征选择方法，其特征在于，所述方法包括下述步骤：当接收到对用户输入的目标数据集进行特征选择的请求时，通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点；根据寻找到的所述切点，对预设数量个粒子的粒子群进行随机初始化，获得所述粒子群中每个粒子的粒子位置，并根据所述粒子位置对所述目标数据集进行数据离散，得到所述目标数据集对应的离散数据集；根据所述离散数据集，通过预设的适应度公式计算所述每个粒子的适应度，以找到所述粒子群的种群最优位置和所述每个粒子所经过的个体最优位置；判断是否满足预设的停止条件，是则，输出所述粒子群的种群最优位置，将所述种群最优位置设置为所述目标数据集选择出的特征，否则，根据所述种群最优位置和所述个体最优位置，对所述每个粒子的粒子位置进行更新，并跳转至根据所述粒子位置对所述数据集进行数据离散的步骤。

【技术特征摘要】
1.一种多元离散的特征选择方法，其特征在于，所述方法包括下述步骤：当接收到对用户输入的目标数据集进行特征选择的请求时，通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点；根据寻找到的所述切点，对预设数量个粒子的粒子群进行随机初始化，获得所述粒子群中每个粒子的粒子位置，并根据所述粒子位置对所述目标数据集进行数据离散，得到所述目标数据集对应的离散数据集；根据所述离散数据集，通过预设的适应度公式计算所述每个粒子的适应度，以找到所述粒子群的种群最优位置和所述每个粒子所经过的个体最优位置；判断是否满足预设的停止条件，是则，输出所述粒子群的种群最优位置，将所述种群最优位置设置为所述目标数据集选择出的特征，否则，根据所述种群最优位置和所述个体最优位置，对所述每个粒子的粒子位置进行更新，并跳转至根据所述粒子位置对所述数据集进行数据离散的步骤。2.如权利要求1所述的方法，其特征在于，通过最小描述长度算法寻找所述目标数据集中每个特征对应的切点的步骤之前，所述方法还包括：根据所述目标数据集中目标数据对应特征的特征值，对所述目标数据进行排序，以获得排序后的目标数据集。3.如权利要求1所述的方法，其特征在于，所述适应度公式为Fitness＝μ×balanced_accuracy+(1-μ)distance-β×selection_proportion，其中，balanced_accuracy为平衡分类精度，μ为预设的、平衡分类精度balanced_accuracy的权重系数，distance为所述离散数据集中离散数据间的距离，selection_proportion为特征选择的比例，β为预设的、特征选择比例selection_proportion的权重系数。4.如权利要求1所述的方法，其特征在于，输出所述粒子群的种群最优位置的步骤之前，所述方法还包括：当所述种群最优位置达到预设的缩放条件时，增加所述粒子群的粒子数，并跳转至对预设数量个粒子的粒子群进行随机初始化的步骤。5.一种多元离散的特征选择装置，其特征在于，所述装置包括：切点寻找单元，用于当接收到对用户输入的目标数据集进行特征选择的请求时，通过最小描述长度算法寻找所述目标数据集中每个特征对应的...

【专利技术属性】
技术研发人员：亢俊皓，周宇，郭海男，林继平，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人