高维数据分类方法、装置及终端设备制造方法及图纸

技术编号：20161119 阅读：17 留言：0更新日期：2019-01-19 00:13

本发明专利技术适用于计算机技术领域，提供了一种高维数据分类方法及装置；其中，方法包括：获取预定数量的原始高维数据样本集，原始高维数据包括表征数据属性特征的特征值；对原始高维数据样本集进行特征降维处理，得到特征降维处理后的高维数据子集；基于特征降维处理后的高维数据子集，利用二进制乌鸦搜索进化算法对特征值进行筛选，获得最优特征子集；根据旋转森林算法对最优特征子集中的样本的属性集进行随机分割和组合，对分割的各组子属性集间的数据进行特征变换，得到差异性大于预定阈值的训练数据集，基于训练数据集构建高维分类模型；根据高维分类模型对目标高维数据进行分类。本发明专利技术能够减少了计算成本，提高了对高维数据的分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
高维数据分类方法、装置及终端设备
本专利技术属于计算机
，尤其涉及一种高维数据分类方法、装置及终端设备。
技术介绍
随着互联网的普及以及信息技术的快速发展，每天在实际应用和生活中都会产生海量的数据，并且数据规模越来越大，维度越来越高。由于高维数据的普遍性和重要性，研究高维数据具有非常重要的意义。但是受高维数据所带来的“维度灾难”的影响，许多在低维数据上表现良好的分类方法运用在高维数据上时无法获得好的分类效果，因此，高维数据分类对传统的分类技术而言是新的挑战。同时，对于高维数据来说，并不是所有的数据特征有同等重要，高维数据中存在大量无用信息，大多数特征与分类任务不相关或相关度极低，即存在着大量冗余特征或不相关特征，而参与数据分类的有效特征只是占总体的很少一部分，因此，对数据进行特征降维和特征选择处理是实现高维数据分类的必要步骤。特征选择方法是从原始数据集中确定最有效的特征子集，从而减少计算成本，提高分类精度。目前常用的特征选择方法有三类：过滤法(Filter)，封装法(Wrapper)，嵌入法(Embedded)。过滤法利用数据自身的统计特性作为评价准则来选择特征子集，其分类准确率较低。封装法是在特征选择过程中应用特定的学习模型来评估所选择的特征子集，并依靠学习模型的准确性来指导搜索过程，虽然准确率优于过滤法，但时间复杂度较高。嵌入法则利用初始数据训练学习模型，并在该过程中完成特征选择。嵌入法主要优点在于与学习模型相互作用，但其时间复杂度同样较高。综上所述，目前对于高维数据的分类方法存在分类精度较低的问题。
技术实现思路
有鉴于此，本专利技术实施例提供了一...

【技术保护点】
1.一种高维数据分类方法，其特征在于，包括：获取预定数量的原始高维数据样本集，所述原始高维数据包括表征数据属性特征的特征值；对所述原始高维数据样本集进行特征降维处理，得到特征降维处理后的高维数据子集；基于特征降维处理后的所述高维数据子集，利用二进制乌鸦搜索进化算法对所述特征值进行筛选，获得最优特征子集；根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合，对分割的各组子属性集间的数据进行特征变换，得到差异性大于预定阈值的训练数据集，基于所述训练数据集构建高维分类模型；根据所述高维分类模型对目标高维数据进行分类。

【技术特征摘要】
1.一种高维数据分类方法，其特征在于，包括：获取预定数量的原始高维数据样本集，所述原始高维数据包括表征数据属性特征的特征值；对所述原始高维数据样本集进行特征降维处理，得到特征降维处理后的高维数据子集；基于特征降维处理后的所述高维数据子集，利用二进制乌鸦搜索进化算法对所述特征值进行筛选，获得最优特征子集；根据旋转森林算法对所述最优特征子集中的样本的属性集进行随机分割和组合，对分割的各组子属性集间的数据进行特征变换，得到差异性大于预定阈值的训练数据集，基于所述训练数据集构建高维分类模型；根据所述高维分类模型对目标高维数据进行分类。2.根据权利要求1所述的高维数据分类方法，其特征在于，对所述原始高维数据样本集进行特征降维处理，得到特征降维处理后的高维数据子集，包括：从高维数据样本集X＝{X1,X2,...,Xn}中随机选择R个样本，基于所述R个样本中的任意一个样本Xi，首先找出k个与Xi同类的最近邻的样本Hj(Xi)，然后在每个R不同类样本集中找出k个最近邻的样本Mj(C)，最后更新每个特征的权重值w，权值更新公式如下：其中，Xi＝{Xi1,Xi2,...,Xim}表示第i个样本的m个属性值，m表示样本抽样次数，Mj(C)表示不同类别C中的第j个最近邻样本，P(C)表示C类目标样本数占样本总数的比例，class(Ri)表示Ri所属的类别；其中，函数diff(A,Ri,Rj)用于计算样本Ri和Rj关于某个特征A间的距离，计算公式如下：3.根据权利要求1所述的高维数据分类方法，其特征在于，基于特征降维处理后的所述高维数据子集，利用二进制乌鸦搜索进化算法对所述特征值进行选择，从所述高维数据子集中获得最优特征子集，包括：对乌鸦搜索算法进行初始化控制参数设置，所述初始化控制参数包括种群群体数量M、感知概率AP、飞行长度fl以及最大迭代次数Maxiter；其中，在乌鸦搜索算法中，假定N只乌鸦随机分布在n维搜索空间中，xi,t＝[x1i,t,x2i,t,…,xni,t](i＝1,2,…,N；t＝1,2,…,Maxiter)表示第i只乌鸦在第t次迭代时的位置，Mi,t表示乌鸦i在第t次迭代时隐藏食物的记忆值，即最优位置；APi,t表示乌鸦i在第t次迭代时的感知概率AP，fli,t表示乌鸦i在第t次迭代时的飞行长度；在第t次迭代时，乌鸦i随机选择一只乌鸦j跟踪以偷窃对方的食物；算法包括全局搜索和局部搜索两部分，通过感知概率AP进行动态调整以达到全局搜索和局部搜索的平衡状态；当随机生成数大于等于乌鸦感知概率AP时，乌鸦j知道乌鸦i跟踪它，会把乌鸦i带到任意位置，当随机生成数小于AP时，乌鸦j不知道乌鸦i跟踪它，则乌鸦i向乌鸦j的最优位置移动，位置更新的表达式如下：其中，APi,t表示乌鸦j在t代时的感知概率，ri和rj是[0,1]区间均匀分布的随机数；当乌鸦i的位置发生改变，则更新记忆值表达式如下：其中，Mi,t表示乌鸦记忆值，f(Mi,t)表示适应度值；对于二进制乌鸦搜索算法在离散空间内进行搜索，每个解表示为1或0，引入映射函数S(x)将连续空间的值转换到离散空间[0,1]，计算公式如下：其中rand()为[0,1]区间均匀分布的随机数；映射函数S(x)表达式如下：适应度函数f(x)表达式如下所示：其中，ACCx表示数据X在集成分类模型上得到的分类精度，N表示特征总数，|Subset|表示选出的最优特征子集的特征数，α为调节分类精度和特征子集数量两部分的权重值，0<α<1；根据当达到最大迭代次数Maxiter时，所有乌鸦的Mi(i＝1,2,…,N)中的位置为最优化问题的解，返回值为最优特征子集。4.根据权利要求1所述的高维数据分类方法，其特征在于，基于所述最优特征子集作为输入，利用旋转森林方法对样本属性集进行随机分割组合，分割的各组子属性集间的数据进行特征变换包括：将数据集划分成L个互不相交的子集，每个子集包括C＝N/L个特征；其中Si,j表示Mi分类器训练集的第j个特征集合，对样本进行随机重采样，通过特征转换处理后得到tij(1),tij(2),…,tij(Cj)；重复执行运行L次，构建L个主成分矩阵R：根据原始数据集重排矩阵R，得到相应的旋转矩阵R＇，则第Mi个分类器所对应的训练集为XRi＇；重复执行上述步骤K次，最终可得到对应不同分类模型的训练集XR1＇,XR2＇,…,XRk＇；针对不同参数和不同训练集，构建差异性大的分类模型...

【专利技术属性】
技术研发人员：马超，
申请(专利权)人：深圳信息职业技术学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人