一种多分枝随机森林数据分类方法技术

技术编号:20623680 阅读:27 留言:0更新日期:2019-03-20 14:56
本发明专利技术公开了一种多分枝随机森林数据分类方法,涉及随机森林数据分类技术领域,解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法,该方法包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪;(二)应用K‑means算法完成数据的聚类操作;(三)构建多分枝随机森林;(四)使用多分枝随机森林模型完成对数据的分类操作。采用本发明专利技术的技术方案可以提高数据分类的性能和准确率。

A Multi-Branch Random Forest Data Classification Method

The invention discloses a multi-branch random forest data classification method, which relates to the technical field of random forest data classification. The technical problem solved is to provide a classification method to improve the performance and accuracy of data classification. The method comprises the following steps: (1) giving the unclassified data sets, applying PCA algorithm to reduce dimensionality and denoise data; (2) completing the number by using K_means algorithm. Data clustering operation; (3) building multi-branched random forest; (4) using multi-branched random forest model to complete data classification operation. The technical scheme of the present invention can improve the performance and accuracy of data classification.

【技术实现步骤摘要】
一种多分枝随机森林数据分类方法
本专利技术涉及随机森林数据分类
,尤其涉及一种多分枝随机森林数据分类方法。
技术介绍
随着人工智能的发展,不论是图像研究、信息安全等都需要人工智能的参与。聚类和分类算法在人工智能领域有着重要的应用,其中K-means和随机森林分别是聚类和分类算法的代表。随机森林的分类能力是分类算法中性能较好的算法之一,是基于决策树的一种集成学习算法。但现有技术的随机森林数据分类方法在进行分类时,样本集过于冗余、杂乱、数据纯度低,对分类性能有一定的影响。
技术实现思路
针对现有技术的不足,本专利技术所解决的技术问题是提供一种提高数据分类的性能和准确率的分类方法。为解决上述技术问题,本专利技术采用的技术方案是一种多分枝随机森林数据分类方法,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪,具体分步骤如下:(1)将样本集表示为N×M的矩阵X;(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。(二)应用K-means算法完成数据集的聚类操作,输出簇C={C1,C2,...,Ck},具体分步骤如下:(1)计算每个样本点的密度值其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;(2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点yl的距离进行归一化处理:(3)将该样本点的密度值和到已选聚类中心的归一化距离之和;其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;(4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck;(5)将c1,c2...ck作为初始的聚簇中心重新记为μ1,μ2...μk;设定最大迭代次数R;(6)计算每一个样本和聚簇中心的距离dist(xi,μj)=||xi-μj||2,其中i=1,2…N,j=1,2,…k;(7)根据距离最近的聚簇中心确定xi的簇标记:λj=argmini∈{1,2...,k}dist(xi,μj);(8)将样本xi划入相应的簇:Cλi=Cλi∪{xi};(9)对所有样本完成聚簇后,计算新均值类中心:如果μ′i和μi不相等,类中心更新为μ′i,如果μi和μ′i相等,在保持μi不变;重新计算样本所属的相应的簇;(10)重复分步骤(9),直至所有的聚簇中心点不发生变化或者达到最大的迭代次数;(11)输出簇划分C={C1,C2,...,Ck}。(三)构建多分枝随机森林,具体分步聚如下:(1)用已知标签的训练集完成构建,给出训练集,对训练集采用K-means算法进行数据预处理,获得簇C={C1,C2,...,Ck},具体过程如下:1)计算每个样本点的密度值其中,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点yl的距离进行归一化处理:3)将该样本点的密度值和到已选聚类中心的归一化距离之和:其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck;5)将c1,c2…ck作为初始的聚簇中心重新记为μ1,μ2...μk;设定最大迭代次数R;6)计算每一个样本和聚簇中心的距离dist(xi,μj)=||xi-μj||2,其中i=1,2…N,j=1,2,…k;7)根据距离最近的聚簇中心确定xi的簇标记:λj=argmini∈{1,2...,k}dist(xi,μj);8)将样本xi划入相应的簇:Cλi=Cλi∪{xi};9)对所有样本完成聚簇后,计算新均值类中心:如果μ′i和μi不相等,类中心更新为μ′i,如果μi和μ′i相等,在保持μi不变;重新计算样本所属的相应的簇;10)重复过程9),直至所有的聚簇中心点不发生变化或者达到最大的迭代次数;11)输出簇划分C={C1,C2,...,Ck}。(2)采用bootstrapsampling采样法,完成对簇Ci的采样操作,构建多分枝随机森林,具体过程如下:1)采用bootstrapsampling采样法,在簇Ci中采用有放回的抽样,采样出T个含m个训练样本的训练集Di;2)假定样本的特征数量是M,在基决策树分裂时随机选取m个特征(m<M),对每个特征A以及它的每个值a,计算基尼指数Gini(D,A);所述基尼指数Gini(D,A),对于给定的样本集合D,设属于类ck的样本子集为Ck,则基尼指数为:在特征A的条件下,集合D的基尼指数Gini(D,A):给定特征A,根据其是否取某一个可能值a,样本集D被分为两个子集:D1和D2,其中:则:3)选取最优特征和最优切分点:在所有特征A以及所有切分点a中,基尼指数最小的A和a就是最优特征和最优切分点,做为树节点。根据最优特征和最优切分点将数据集Di切分成两个子节点;4)对子节点递归调用过程2)、过程3),直到数据集中基尼指数小于预定值,即完成了基决策树的构建;5)由基决策树组成多分枝随机森林。(四)使用构建完成的多分枝随机森林模型完成对数据的分类操作,具体分步骤如下:(1)将步骤(二)聚类完成输出的簇C={C1,C2,...,Ck}依次输入到多分枝随机森林;(2)样本点hi在类别标记cj的输出记为(3)采用相对多数投票法决定样本的类别:重复以上分步聚(2)、分步聚(3),直至将所有的簇分类完成;(4)输出分类结果。采用本专利技术的技术方案可以提高数据分类的性能和准确率。附图说明图1为本专利技术流程图;图2为构造多分枝随机森林流程示意图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步的说明,但不是对本专利技术的限定。图1示出了一种多分枝随机森林数据分类方法,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪,具体分步骤如下:(1)将样本集表示为N×M的矩阵X;(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。(二)应用K-means算法完成数据集的聚类操作,输出簇C={C1,C2,...,Ck},具体分步骤如下:(1)计算每个样本点的密度值其中,pij本文档来自技高网...

【技术保护点】
1.一种多分枝随机森林数据分类方法,其特征在于,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪;(二)应用K‑means算法完成数据的聚类操作;(三)构建多分枝随机森林;(四)使用多分枝随机森林模型完成对数据的分类操作。

【技术特征摘要】
1.一种多分枝随机森林数据分类方法,其特征在于,包括如下步骤:(一)给出未分类数据集,应用PCA算法对数据降维去噪;(二)应用K-means算法完成数据的聚类操作;(三)构建多分枝随机森林;(四)使用多分枝随机森林模型完成对数据的分类操作。2.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(一)具体分步聚如下:(1)将样本集表示为N×M的矩阵X;(2)对每一行进行零均值化,即求矩阵中每一行的平均值Ri,每一行都减去该行的平均值Ni-Ri;求出协方差矩阵求协方差矩阵C的特征值λ1,λ2…λm和标准化特征向量x1,x2…xm;(3)将特征向量按照对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;(4)将矩阵P与矩阵X相乘,得到降维后的数据,去除数据中的冗余部分。3.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(二)具体分步骤如下:(1)计算每个样本点的密度值其中,dijk=||xij-xkj||,pij是类别j中第i个样本点的密度;nj为j类样本点总数,dijk是样本点xij和xkj在向量空间中的距离;将密度值pij最大的样本点作为第一个聚簇中心;(2)在剩余聚簇中心的选取时还要考虑距离,对给定的样本yn,将其到样本点的距离进行归一化处理:(3)将该样本点的密度值和到已选聚类中心的归一化距离之和:其中,pij表示类别j中第i个样本点的密度,Dijt表示样本点xij到已选定的第t类的中心yt的归一化距离;聚类数K值由手肘法确定;(4)把wij按照由大到小的顺序排列,选择前k-1个样本点和pij值最大的点作为初始聚聚簇中心C1,C2,...,Ck;(5)将c1,c2,...,ck作为初始的聚簇中心重新记为μ1,μ2...μk;设定最大迭代次数R;(6)计算每一个样本和聚簇中心的距离dist(xi,μj)=||xi-μj||2,其中i=1,2…N,j=1,2,…k;(7)根据距离最近的聚簇中心确定xi的簇标记:λj=argmini∈{1,2...,k}dist(xi,μj);(8)将样本xi划入相应的簇:Cλi=Cλi∪{xi};(9)对所有样本完成聚簇后,计算新均值类中心:如果μ′i和μi不相等,类中心更新为μ′i,如果μi和μ′i相等,在保持μi不变;重新计算样本所属的相应的簇;(10)重复分步骤(9),直至所有的聚簇中心点不发生变化或者达到最大的迭代次数;(11)输出簇划分C={C1,C2,...,Ck}。4.如权利要求1所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(三)具体分步聚如下:(1)用已知标签的训练集完成构建,给出训练集,对训练集采用K-means算法进行数据预处理,获得簇C={C1,C2,...,Ck};(2)采用bootstrapsampling采样法,完成对簇Ci的采样操作,构建多分枝随机森林。5.如权利要求4所述的多分枝随机森林数据分类方法,其特征在于,所述步骤(三)中分步聚(1)具体过程如下:1)计算每个样本点的密度值其中,dijk=||x...

【专利技术属性】
技术研发人员:江泽涛马伟康胡硕
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1