构建GBDT模型的方法、装置及预测方法、装置制造方法及图纸

技术编号:22330857 阅读:20 留言:0更新日期:2019-10-19 12:25
本发明专利技术公开了构建梯度提升决策树GBDT模型的方法及装置,涉及机器学习技术领域,主要目的在于解决现有的所训练的决策树模型的准确率较低的问题。本发明专利技术主要的技术方案为:获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。本发明专利技术用于对梯度提升决策树的构建过程中。

Methods, devices, prediction methods and devices for building gbdt model

【技术实现步骤摘要】
构建GBDT模型的方法、装置及预测方法、装置
本专利技术涉及机器学习
,尤其涉及一种构建梯度提升决策树GBDT模型的方法、装置以及利用该模型进行预测的方法、装置。
技术介绍
随着技术的不断进步,人工智能技术也逐步发展。其中,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。目前,在现实应用中,数据的获取是相对容易的,而对数据的标记则需要花费较高的人力、物力等资源,因此往往在某个数据集中会存在少量已标记的数据,记作正样本,以及大量未标记的数据。对于这种情况,一般会选择使用PU学习(Positiveandunlabeledlearning,简称PULearning)结合梯度提升决策树算法进行决策树模型的训练,例如选取GBDT算法来根据样本数据训练对应的梯度提升决策树的GBDT模型。然而,在实际应用中,在通过训练基于PU学习的决策树模型时,基于样本数据中已标记的“正样本”较少,大部分为未标记的数据,因此,在训练梯度提升决策树模型时极为容易出现“过拟合”现象,其中,过拟合是指为了得到一致假设而使假设变得过度严格的现象,从而导致现有方式所训练出的决策树模型的准确率较低。
技术实现思路
鉴于上述问题,本专利技术提出了一种构建梯度提升决策树GBDT模型的方法及装置,主要目的在于解决现有的所训练的决策树模型的准确率较低的问题,提高训练出的模型的准确率。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供一种构建梯度提升决策树GBDT模型方法,具体包括:获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。可选的,所述基于所述样本数据集中的正样本数据构建一个正样本训练子集包括:取所述样本数据集中的所有正样本数据构建一个正样本训练子集;或者,取所述样本数据集中的部分正样本数据构建一个正样本训练子集。可选的,当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。可选的,所述基于该训练集训练当前回归树包括:通过所述当前回归树的训练集,及预设GBDT算法进行迭代训练,得到对应每次迭代训练的每一棵回归树。可选的,所述通过所述当前回归树的训练集,及预设GBDT算法进行迭代训练,得到对应每次迭代训练的每一棵回归树,包括:从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设GBDT算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;当训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设GBDT算法,以及第二参数,训练第二回归树,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测结果与第二训练集中样本数据的实际结果确定的,所述第一训练集、第二训练集均是由一个正样本训练子集及一个负样本训练子集构成的,所述第一训练集与所述第二训练集所包含的负样本训练子集不同。可选的,在从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设GBDT算法,以及第二参数,训练第二回归树之前,所述方法还包括:通过所述第一回归树对所述第二训练集进行预测,得到所述第二训练集对应的预测结果;根据所述第二训练集的实际结果与所述第二训练集对应的预测结果,确定所述实际结果与预测结果的残差,并将所述残差确定为所述第二参数。可选的,所述方法进一步包括:基于所述样本数据集构建多个训练集;从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择,训练得到多个候选模型,其中,一种机器学习算法、一组超参数和一个训练集确定一个候选模型;对至少一个所述GBDT模型和所述多个候选模型分别进行评估,选出多个符合预设条件的模型;集成所述多个符合预设条件的模型得到集成后的复合模型。可选的,在对至少一个所述GBDT模型和所述多个候选模型分别进行评估之前,所述方法还包括:对所述样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集;所述对至少一个所述GBDT模型和所述多个候选模型分别进行评估,选出多个符合预设条件的模型包括:根据所述评估集对所述至少一个所述GBDT模型和所述多个候选模型分别进行评估,得到对应每个模型的评估结果,并从所述评估结果中选出多个符合预设条件的模型。可选的,所述样本数据集包括:目标对象推荐时的目标对象数据、银行卡泄漏点检测时的被盗刷银行卡的交易数据、图像/文本分类时的图像/文本数据、恶意流量检测时的流量数据;其中,当所述样本数据集为目标对象数据时,所述目标对象数据中已被推荐的目标对象数据为正样本数据,所述未被推荐的目标对象数据为负样本数据;当所述样本数据集为被盗刷银行卡的交易数据时,所述交易数据中已知泄露点的交易数据为正样本数据,未知泄漏点的交易数据为负样本数据;当所述样本数据集为图像/文本数据时,所述已分类的图像/文本数据为正样本数据,未分类的图像/文本数据为负样本数据;当所述样本数据集为流量数据时,所述流量数据中的已知恶意流量数据为正样本数据,未知的流量数据为负样本数据。另一方面,本专利技术还提供了一种构建梯度提升决策树GBDT模型的装置,其中,该方法包括:获取单元,用于获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;构建单元,用于在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。可选的,所述构建单元包括:第一构建模块,用于取所述样本数据集中的所有正样本数据构建一个正样本训练子集,或者用于取所述样本数据集中的部分正样本数据构建一个正样本训练子集可选的,所述构建单元包括:第二构建模块,用于当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍本文档来自技高网...

【技术保护点】
1.一种构建梯度提升决策树GBDT模型的方法,包括:获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。

【技术特征摘要】
1.一种构建梯度提升决策树GBDT模型的方法,包括:获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。2.如权利要求1所述的方法,其中,所述基于所述样本数据集中的正样本数据构建一个正样本训练子集包括:取所述样本数据集中的所有正样本数据构建一个正样本训练子集;或者,取所述样本数据集中的部分正样本数据构建一个正样本训练子集。3.如权利要求1所述的方法,其中,当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。4.如权利要求1所述的方法,其中,所述基于该训练集训练当前回归树包括:通过所述当前回归树的训练集,及预设GBDT算法进行迭代训练,得到对应每次迭代训练的每一棵回归树。5.如权利要求4所述的方法,其中,所述通过所述当前回归树的训练集,及预设GBDT算法进行迭代训练,得到对应每次迭代训练的每一棵回归树,包括:从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设GBDT算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;当训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设GBDT算法,以及第二参数,训练第二回归树,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测...

【专利技术属性】
技术研发人员:王海涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1