The invention discloses a multi-branch random forest data classification method, which relates to the technical field of random forest data classification. The technical problem solved is to provide a classification method to improve the performance and accuracy of data classification. The method comprises the following steps: (1) giving the unclassified data sets, applying PCA algorithm to reduce dimensionality and denoise data; (2) completing the number by using K_means algorithm. Data clustering operation; (3) building multi-branched random forest; (4) using multi-branched random forest model to complete data classification operation. The technical scheme of the present invention can improve the performance and accuracy of data classification.
【技术实现步骤摘要】
一种多分枝随机森林数据分类方法
本专利技术涉及随机森林数据分类
,尤其涉及一种多分枝随机森林数据分类方法。
技术介绍
随着人工智能的发展,不论是图像研究、信息安全等都需要人工智能的参与。聚类和分类算法在人工智能领域有着重要的应用,其中K-means和随机森林分别是聚类和分类算法的代表。随机森林的分类能力是分类算法中性能较好的算法之一,是基于决策树的一种集成学习算法。但现有技术的随机森林数据分类方法在进行分类时,样本集过于冗余、杂乱、数据纯度低,对分类性能有一定的影响。
技术实现思路
针对现有技术的不足,本专利技术所解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法。为解决上述技术问题,本专利技术采用的技术方案是一种多分枝随机森林数据分类方法,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪,具体分步骤如下:(1)将样本集表示为N×M的矩阵X;(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。(二)应用K-means算法完成数据集的聚类操作,输出簇C={C1,C2,...,Ck},具体分步骤如下:(1)计算每个样本点的密度值其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空 ...
【技术保护点】
1.一种多分枝随机森林数据分类方法,其特征在于,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪;(二)应用K‑means算法完成数据的聚类操作;(三)构建多分枝随机森林;(四)使用多分枝随机森林模型完成对数据的分类操作。
【技术特征摘要】
1.一种多分枝随机森林数据分类方法,其特征在于,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪;(二)应用K-means算法完成数据的聚类操作;(三)构建多分枝随机森林;(四)使用多分枝随机森林模型完成对数据的分类操作。2.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(一)具体分步聚如下:(1)将样本集表示为N×M的矩阵X;(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。3.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(二)具体分步骤如下:(1)计算每个样本点的密度值其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;(2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点的距离进行归一化处理:(3)将该样本点的密度值和到已选聚类中心的归一化距离之和:其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;(4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck;(5)将c1,c2,...,ck作为初始的聚簇中心重新记为μ1,μ2...μk;设定最大迭代次数R;(6)计算每一个样本和聚簇中心的距离dist(xi,μj)=||xi-μj||2,其中i=1,2…N,j=1,2,…k;(7)根据距离最近的聚簇中心确定xi的簇标记:λj=argmini∈{1,2...,k}dist(xi,μj);(8)将样本xi划入相应的簇:Cλi=Cλi∪{xi};(9)对所有样本完成聚簇后,计算新均值类中心:如果μ′i和μi不相等,类中心更新为μ′i,如果μi和μ′i相等,在保持μi不变;重新计算样本所属的相应的簇;(10)重复分步骤(9),直至所有的聚簇中心点不发生变化或者达到最大的迭代次数;(11)输出簇划分C={C1,C2,...,Ck}。4.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(三)具体分步聚如下:(1)用已知标签的训练集完成构建,给出训练集,对训练集采用K-means算法进行数据预处理,获得簇C={C1,C2,...,Ck};(2)采用bootstrapsampling采样法,完成对簇Ci的采样操作,构建多分枝随机森林。5.如权利要求4所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(三)中分步聚(1)具体过程如下:1)计算每个样本点的密度值其中,dijk=||x...
【专利技术属性】
技术研发人员:江泽涛,马伟康,胡硕,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。