基于GBDT的集成学习方法、装置、及电子设备制造方法及图纸

技术编号:37773477 阅读:14 留言:0更新日期:2023-06-06 13:40
本申请提供基于GBDT的集成学习方法、装置、及电子设备,涉及数据挖掘技术领域。所述方法包括:基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;基于数据集,利用滑动窗口,得到衍生特征;对原始特征进行稀疏处理;组合衍生特征和稀疏处理后的原始特征,得到若干训练数据集;基于若干训练数据集,训练得到若干基模型;当需要完成分类任务时,基于若干基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。本申请提供的基于GBDT的集成学习方法,能够增加样本的多样性,降低模型偏差,改善集成学习效果;还能够发现特征之间的非线性关系,增加基模型的多样性,避免模型产生高方差,提高模型预测准确率。提高模型预测准确率。提高模型预测准确率。

【技术实现步骤摘要】
基于GBDT的集成学习方法、装置、及电子设备


[0001]本申请涉及数据挖掘
,具体涉及一种基于GBDT的集成学习方法、装置、电子设备、及计算机程序产品。

技术介绍

[0002]集成学习(Ensemble learning)通常通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。集成学习的一般结构为:先产生一组“个体学习器”,再用某种策略将它们结合起来。在集成学习中,通常采用Bagging模型、Boosting模型、和Stacking模型。其中bagging模型只能改善模型高方差的缺点,但是对模型偏差的控制没有比较好的效果;Boosting模型是串行,必须先生成第一个分类器,然后依次往后,模型性能较差,且Boosting模型仅能降低模型偏差;而Stacking模型内部过于复杂,导致容易造成过拟合。

技术实现思路

[0003]本申请实施例提供一种基于GBDT的集成学习方法,用以解决采用现有模型实现的集成学习效果不佳的技术问题。
[0004]第一方面,本申请实施例提供一种基于GBDT的集成学习方法,包括:
[0005]基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;
[0006]基于所述数据集,利用滑动窗口,得到衍生特征;
[0007]对所述原始特征进行稀疏处理;
[0008]组合所述衍生特征和稀疏处理后的原始特征,得到若干训练数据集;
[0009]基于若干训练数据集,训练得到若干基模型;
[0010]当需要完成分类任务时,基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。
[0011]在一个实施例中,所述基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集,包括:
[0012]基于预测样本集,加强训练所述梯度提升回归树;
[0013]利用加强训练后的梯度提升回归树对训练样本集进行预测,得到所述训练样本集中每个样本的叶子结节位置;
[0014]合并所述预测样本集中每个样本的叶子结节位置和所述训练样本集中每个样本的叶子结节位置,形成第一数据集;
[0015]对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集。
[0016]在一个实施例中,所述对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集,包括:
[0017]按照正负样本将所述第一数据集分成第一正样本数据集和第一负样本数据集;
[0018]将样本标签在所述第一正样本数据集和在所述第一负样本数据集中的概率值转换为标准二维正态分布,按照预设过滤条件滤除拒绝样本,得到第二正样本数据集和第二负样本数据集;
[0019]按照预设样本抽取比例,分别对所述第二正样本数据集的样本和所述第二负样本数据集的样本进行随机有放回抽取处理。
[0020]在一个实施例中,所述基于所述数据集,利用滑动窗口,得到衍生特征,具体为:
[0021]采用滑动间隔为i维度的滑动窗口,分别对所述数据集中特征维度为L的k个特征进行窗口滑动,得到[(L

j)/i]*k个衍生特征。
[0022]在一个实施例中,所述对所述原始特征进行稀疏处理,具体为:
[0023]对所述原始特征中的离散特征进行独热编码处理;
[0024]利用特征工程算法,对进行独热编码处理后的离散特征和所述原始特征中的连续特征进行稀疏处理。
[0025]在一个实施例中,所述基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果,包括:
[0026]根据正负结果对若干所述基模型的分类结果进行分类统计,得到正结果比例和负结果比例;
[0027]选取大于或等于预设阈值的比例所对应的分类结果,作为最终分类结果。
[0028]在一个实施例中,所述预设阈值为50%。
[0029]第二方面,本申请实施例提供一种一种基于GBDT的集成学习装置,包括:
[0030]数据集形成模块,用于:基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;
[0031]衍生特征得到模块,用于:基于所述数据集,利用滑动窗口,得到衍生特征;
[0032]稀疏处理模块,用于:对所述原始特征进行稀疏处理;
[0033]训练数据集得到模块,用于:组合所述衍生特征和稀疏处理后的原始特征,得到若干训练数据集;
[0034]基模型得到模块,用于:基于若干训练数据集,训练得到若干基模型;
[0035]最终分类结果得到模块,用于:当需要完成分类任务时,基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。
[0036]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的基于GBDT的集成学习方法的步骤。
[0037]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于GBDT的集成学习方法的步骤。
[0038]本申请实施例提供的基于GBDT的集成学习方法、装置、及电子设备,基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集,以及基于数据集,利用滑动窗口,得到衍生特征,能够增加样本的多样性,扩大局部特征,使得模型能够更好地识别规律,降低模型偏差,改善集成学习效果;还对原始特征进行稀疏处理,组合衍生特征和稀疏处理后的原始特征,得到若干训练数据集,继而训练基模型,如此能够发现特征之间的非线性关系,弥补基模型的缺陷,增加基模型的多样性,以及提高整体模型的泛化能力,避免模型产生高
方差,提高模型预测准确率。
附图说明
[0039]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本申请实施例提供的基于GBDT的集成学习方法的流程示意图;
[0041]图2示出基于梯度提升回归树将原始特征转换为叶子结节位置,其中GBDT Classifier表示GBDT分类器;
[0042]图3示出利用本申请实施例提供的基于GBDT的集成学习方法以及现有技术来对同一案例进行集成学习预测的比对结果;
[0043]图4是本申请实施例提供的基于GBDT的集成学习装置的结构示意图;
[0044]图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0045]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GBDT的集成学习方法,其特征在于,包括:基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;基于所述数据集,利用滑动窗口,得到衍生特征;对所述原始特征进行稀疏处理;组合所述衍生特征和稀疏处理后的原始特征,得到若干训练数据集;基于若干训练数据集,训练得到若干基模型;当需要完成分类任务时,基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。2.根据权利要求1所述的基于GBDT的集成学习方法,其特征在于,所述基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集,包括:基于预测样本集,加强训练所述梯度提升回归树;利用加强训练后的梯度提升回归树对训练样本集进行预测,得到所述训练样本集中每个样本的叶子结节位置;合并所述预测样本集中每个样本的叶子结节位置和所述训练样本集中每个样本的叶子结节位置,形成第一数据集;对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集。3.根据权利要求2所述的基于GBDT的集成学习方法,其特征在于,所述对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集,包括:按照正负样本将所述第一数据集分成第一正样本数据集和第一负样本数据集;将样本标签在所述第一正样本数据集和在所述第一负样本数据集中的概率值转换为标准二维正态分布,按照预设过滤条件滤除拒绝样本,得到第二正样本数据集和第二负样本数据集;按照预设样本抽取比例,分别对所述第二正样本数据集的样本和所述第二负样本数据集的样本进行随机有放回抽取处理。4.根据权利要求1

3任一项所述的基于GBDT的集成学习方法,其特征在于,所述基于所述数据集,利用滑动窗口,得到衍生特征,具体为:采用滑动间隔为i维度的滑动窗口,分别对所述数据集中特征维度为L的k个特征进行窗口滑动,得到[(L
...

【专利技术属性】
技术研发人员:彭依校张泽余凤丽李金柱景昕章庆生
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1