基于粒子群优化的双准确度加权随机森林算法制造技术

技术编号:24939682 阅读:39 留言:0更新日期:2020-07-17 21:18
本发明专利技术公开了基于粒子群优化的双准确度加权随机森林算法,包括以下步骤:S1:确定原始数据集D、随机确定决策树棵数

【技术实现步骤摘要】
基于粒子群优化的双准确度加权随机森林算法
本专利技术涉及基于粒子群优化的双准确度加权随机森林算法,属于数据处理领域。
技术介绍
随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,所述模型对数据的分类是通过单个决策树的分类结果进行集体平均投票来决定最终结果的。这种平均投票方式可能导致生长较差的决策树影响最终分类结果,且易出现“平票”的情况。传统随机森林算法通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性。但由于训练样本和属性的随机性以及决策树棵树的不确定性导致实际效果并不理想。因此,设计一种改进的加权随机森林算法具有重要意义。
技术实现思路
为了克服现有技术中的不足,本专利技术提出了基于粒子群优化的双准确度加权随机森林算法,该算法比传统随机森林算法具有更高的准确性,并且大幅度降低了出现“平票”的可能性。本专利技术中主要采用的技术方案为:基于粒子群优化的双准确度加权随机森林算法,包括以下步骤:...

【技术保护点】
1.基于粒子群优化的双准确度加权随机森林算法,其特征在于,包括以下步骤:Step1:确定原始数据集D={(x

【技术特征摘要】
1.基于粒子群优化的双准确度加权随机森林算法,其特征在于,包括以下步骤:Step1:确定原始数据集D={(x1,y1),(x2,y2),...(xN,yN)},其中,为输入实例,n为总特征个数,yi∈{Y1,Y2,...,YN}为类标记,i=1,2,...,N,N为样本容量,随机确定决策树棵数K、决策树的特征个数m,其中,m≤n,确定预测试样本率X,所述预测试样本率为预测试数据集个数与数据集总数之比;
Step2:根据预测试样本率X对原始数据集D进行划分,生成第k棵决策树对应的预测试数据集Pk以及训练数据集Sk,并使用Bootstrap采样法对训练数据集Sk采样,获得袋外数据Ok,训练子集Tk;
Step3:从n个特征中随机选取m个特征属性作为节点分类特征,Tk作为训练数据,根据C4.5算法生成第k棵决策树;并使用该决策树测试Ok、Pk数据集,根据公式(1)和公式(2)计算该决策树的权重wOk和wPk,根据公式(3)计算该决策树的最终权重wk:









Step4:重复Step2和Step3,直至决策树棵数为K时停止,获得决策树集合以及每棵决策树的权重;
Ste...

【专利技术属性】
技术研发人员:张文波冯永新郝颖付立冬王晶
申请(专利权)人:沈阳理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1