System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于倾斜回归树的GBDT分类方法技术_技高网

一种基于倾斜回归树的GBDT分类方法技术

技术编号:40182503 阅读:7 留言:0更新日期:2024-01-26 23:48
本发明专利技术公开了一种基于倾斜回归树的GBDT分类方法,该方法包括改进的倾斜决策树回归树生成算法,该改进的倾斜决策树回归树生成算法一方面基于预排序的树生成算法进行节点分裂,将上一节点分裂后的左子集和右子集标识后的样本排序结果作为下一节点的初始样本集,以提高单节点分裂速度。另一方面该改进的倾斜决策树回归树生成算法基于局部近似策略算法得到抽取系数对轴平行树的每个节点均进行扰动和跳跃,减少决策树的层数,降低模型复杂度,提高了实际分类速度在保障准确性的同时提高扰动和跳跃的速度,此外,通过将多棵回归树集成模型拟合的残差进行迭代训练,得到多分类集成模型并基于该多分类集成模型的预测结果进行数据分类以提高分类准确性。

【技术实现步骤摘要】

本专利技术属于机器学习方法领域,具体涉及一种基于倾斜回归树的gbdt分类方法。


技术介绍

1、近年来,人工智能技术在各个领域的应用日趋广泛,机器学习是人工智能技术的重要基础,也是学术界和工业界的研究热点。决策树是一种经典的机器学习方法,也是提升方法(boosting)集成学习方法的基学习器,决策树被成功应用于计算机视觉、信息检索等领域。单个机器学习模型用于分类或回归任务时,由于模型复杂度或训练数据的限制,其性能往往达不到要求,集成学习则通过已有机器学习模型的集成组合,能够进一步提升性能。梯度提升决策树(gradient boosting decision tree,gbdt)是一种基于boosting集成学习思想的加法模型,因具有预测精度高和解释能力强的优点受到各领域研究人员的青睐,受到广泛关注和研究。

2、torsha majumder于2020发表于《computer science》的论文《ensembles ofoblique decision trees》中,公开了一种倾斜决策树分类方法,该方法先通过对属性的每个取值进行遍历并计算基尼(gini)系数,寻找最佳轴平行分割,然后通过遍历对超平面的每个系数进行扰动直至找到最优值,最后通过随机化跳跃跳出局部最小值来寻找最优分割。该方法与传统的分类回归树(classification and regression tree,cart)决策树分类算法相比受噪声影响小,分类精度更高。

3、然而,现有技术中基学习器为倾斜决策树在节点分裂时需要对所有属性集合进行重复排序操作,同时每一次扰动之后又是新的一轮遍历计算gini值的过程,遍历计算过程中对于超平面系数的取值选择采用的是贪心遍历策略,重复计算不同分割条件下的gini值,虽然是寻找最佳分裂的最好选择,但是伴随样本数量增加计算时间急剧增长,增加了运算的复杂度,使得算法出现了训练的时间成本增加问题。此外,算法中的单棵决策树模型泛化能力较差,存在分类准确率较低的问题。


技术实现思路

1、为了解决现有技术中存在的上述问题,本专利技术通过以下技术方案实现:

2、本专利技术提供了一种基于倾斜回归树的gbdt分类方法,所述方法包括:

3、步骤1、完成信号样本标签独热化编码,生成k×n维的标签集矩阵,初始化迭代次数o1,令o1=1,其中,k为整数且k≥1,k表示信号样本的标签类别,n为整数且n≥1,n表示每类标签所对应的样本数目,o1≤o,o≥1,o表示预设的迭代总次数;

4、步骤2、对k×n维的标签集矩阵中第k个标签类别的样本数据进行初始化,得到第k个标签类别的初始化模型,其中,k=1,2,…,k;

5、步骤3、将第k个标签类别的初始化模型通过改进的倾斜决策树回归树生成算法进行训练,得到第k个类别的倾斜回归树,基于第k个类别的倾斜回归树计算将输入样本划分为第k个类别的预测概率,其中,所述改进的倾斜决策树回归树生成算法包括基于预排序的树生成算法,所述预排序的树生成算法将上一节点分裂后的左子集和右子集标识后的样本排序结果作为下一节点的初始样本集;

6、步骤4、计算第k个类别的倾斜回归树的负梯度和叶节点拟合值;

7、步骤5、根据叶节点拟合值得到第o1轮迭代的第一棵拟合回归树;

8、步骤6、重复步骤2~步骤5,训练剩下的k-1棵树得到k棵拟合回归树组成的集成模型,根据每棵拟合回归树的输出得到新的预测概率,再次计算得到新的负梯度,组成拟合的残差;

9、步骤7、令o1=o1+1,当o1≤o时,根据步骤6中集成模型拟合的残差,重复步骤2~步骤7,直至完成所有o次迭代,得到多分类集成模型;

10、步骤8、根据多分类集成模型的预测结果进行数据分类。

11、在本专利技术的一个实施例中,所述第k个类别的初始化模型表示为:fk,0(x),x表示输入样本的特征向量,fk,0(x)表示第k个类别第0轮迭代的树模型,初始化参数为类别对应的先验概率,所述先验概率表示为dk表示第k个标签类别的样本数据所占数量,d表示样本总集。

12、在本专利技术的一个实施例中,所述改进的倾斜决策树回归树生成算法,还包括:

13、步骤s31、以当前总样本集创建节点;

14、步骤s32、基于预排序的树生成算法,按照均方误差值最小原则得到每个节点的最优分裂属性的最优分裂值xok,对每个节点按照其最优分裂属性的最优分裂值xok进行分裂,得到第k个类别的轴平行树;

15、步骤s33、对第k个类别的轴平行树的每个节点均进行扰动和跳跃,所述扰动和跳跃过程包括:

16、基于局部近似策略算法得到抽取系数,根据抽取系数对当前节点最优分裂属性的超平面h进行扰动,更新当前节点的最优分裂属性的am和b,其中,am表示超平面h的斜率,b表示超平面h的扰动量,所述超平面h为当前节点最优分裂属性的超平面;

17、将抽取系数中的属性值代入至所述超平面h进行扰动,得到抽取系数中纯度最优时,所述最优分裂属性的超平面h斜率和超平面扰动量,将am的最优值标识为当本次扰动后的纯度与前次所对应的纯度相等时,由所述超平面h的停滞系数确定是否更新超平面h的超平面斜率;

18、将所述超平面h沿随机向量为r=(r1,...,rm,rm+1)方向扰动,扰动量的大小为α,rm表示所述最优分裂属性对应的方向扰动,将抽取系数中所有样本属性值代入超平面h扰动过程得到α的所有约束进而得到沿着r方向跳跃不同的距离得到的新超平面,计算按新的超平面划分后的纯度得到最佳扰动量αok,当本次迭代相比前次迭代随机跳跃提升了纯度,则按照最佳扰动量αok更新超平面h的参数;

19、步骤s34、重复步骤s33直至达到预设迭代次数,得到第k个类别的倾斜回归树;

20、步骤s35、基于第k个类别的倾斜回归树,计算将输入样本划分为第k个类别的预测概率。

21、在本专利技术的一个实施例中,所述基于预排序的树生成算法包括:

22、步骤s321、将当前节点样本数据的属性xm所有属性值进行排序,通过索引号与对应样本的一一映射关系,实现通过索引号直接对当前节点标签样本进行索引,其中,xm表示第m种属性,m=1,2,…m,m表示当前节点的属性总数;

23、步骤s322、按照属性xm的属性值将当前节点的标签样本逐一划分左子集和右子集,逐个计算出按照属性xm的属性值划分左子集和右子集的均方误差值,找出当均方误差值最小时所述属性xm的最优属性分裂值;

24、步骤s323、判断当前节点是否停止分裂;

25、具体地,对当前节点进行判断,若当前节点出现预设约束条件中的至少一种情况时,当前节点停止分裂,其中,所述预设约束条件包括以下三种情况:

26、第一种情况,当前节点包含的样本标签类别相同;

27、第二种情况,当前节点的样本属性集为空,或样本的所有属性取值相同;

28、本文档来自技高网...

【技术保护点】

1.一种基于倾斜回归树的GBDT分类方法,其特征在于,包括:

2.根据权利要求1所述的基于倾斜回归树的GBDT分类方法,其特征在于,所述第k个类别的初始化模型表示为:fk,0(x),x表示输入样本的特征向量,fk,0(x)表示第k个类别第0轮迭代的树模型,初始化参数为类别对应的先验概率,所述先验概率表示为Dk表示第k个标签类别的样本数据所占数量,D表示样本总集。

3.根据权利要求2所述的基于倾斜回归树的GBDT分类方法,其特征在于,所述改进的倾斜决策树回归树生成算法,还包括:

4.根据权利要求3所述的基于倾斜回归树的GBDT分类方法,其特征在于,所述基于预排序的树生成算法包括:

5.根据权利要求4所述的基于倾斜回归树的GBDT分类方法,其特征在于,所述第一标识和所述第二标识均采用字节类型,子节点对其父节点传递的所述第一标识和所述第二标识进行布尔判断,以使用其父节点所传递的分裂前的总排序结果。

6.根据权利要求5所述的基于倾斜回归树的GBDT分类方法,其特征在于,所述局部近似策略算法包括:将当前节点的所述最优分裂属性的预设待选属性值按照预设间隔划分为多个局部区域,按随机抽取方式在每个局部区域抽取待选值存储至数组中得到所述抽取系数。

...

【技术特征摘要】

1.一种基于倾斜回归树的gbdt分类方法,其特征在于,包括:

2.根据权利要求1所述的基于倾斜回归树的gbdt分类方法,其特征在于,所述第k个类别的初始化模型表示为:fk,0(x),x表示输入样本的特征向量,fk,0(x)表示第k个类别第0轮迭代的树模型,初始化参数为类别对应的先验概率,所述先验概率表示为dk表示第k个标签类别的样本数据所占数量,d表示样本总集。

3.根据权利要求2所述的基于倾斜回归树的gbdt分类方法,其特征在于,所述改进的倾斜决策树回归树生成算法,还包括:

4.根据权利要求3所述的基于倾斜回...

【专利技术属性】
技术研发人员:龙璐岚魏石林臧博张文博李林吴枭姬红兵
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1