构建GBDT模型的方法、装置及预测方法、装置制造方法及图纸

技术编号：22330857 阅读：20 留言：0更新日期：2019-10-19 12:25

本发明专利技术公开了构建梯度提升决策树GBDT模型的方法及装置，涉及机器学习技术领域，主要目的在于解决现有的所训练的决策树模型的准确率较低的问题。本发明专利技术主要的技术方案为：获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；在训练GBDT模型的每一棵回归树时，基于所述样本数据集中的正样本数据构建一个正样本训练子集，对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集，将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集，并基于所述当前回归树的训练集训练当前回归树，再根据所述每一颗回归树构建梯度提升决策树GBDT模型。本发明专利技术用于对梯度提升决策树的构建过程中。

Methods, devices, prediction methods and devices for building gbdt model

全部详细技术资料下载

【技术实现步骤摘要】
构建GBDT模型的方法、装置及预测方法、装置
本专利技术涉及机器学习
，尤其涉及一种构建梯度提升决策树GBDT模型的方法、装置以及利用该模型进行预测的方法、装置。
技术介绍
随着技术的不断进步，人工智能技术也逐步发展。其中，机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。不论是训练机器学习模型，还是利用训练好的机器学习模型进行预测，数据都需要转换为包括各种特征的机器学习样本。目前，在现实应用中，数据的获取是相对容易的，而对数据的标记则需要花费较高的人力、物力等资源，因此往往在某个数据集中会存在少量已标记的数据，记作正样本，以及大量未标记的数据。对于这种情况，一般会选择使用PU学习(Positiveandunlabeledlearning，简称PULearning)结合梯度提升决策树算法进行决策树模型的训练，例如选取GBDT算法来根据样本数据训练对应的梯度提升决策树的GBDT模型。然而，在实际应用中，在通过训练基于PU学习的决策树模型时，基于样本数据中已标记的“正样本”较少，大部分为未标记的数据，因此，在训练梯度提升决策树模型时极为容易出现“过拟合”现象，其中，过拟合是指为了得到一致假设而使假设变得过度严格的现象，从而导致现有方式所训练出的决策树模型的准确率较低。
技术实现思路
鉴于上述问题，...

【技术保护点】
1.一种构建梯度提升决策树GBDT模型的方法，包括：获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；在训练GBDT模型的每一棵回归树时，基于所述样本数据集中的正样本数据构建一个正样本训练子集，对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集，将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集，并基于所述当前回归树的训练集训练当前回归树，再根据所述每一颗回归树构建梯度提升决策树GBDT模型。

【技术特征摘要】
1.一种构建梯度提升决策树GBDT模型的方法，包括：获取样本数据集，所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据；在训练GBDT模型的每一棵回归树时，基于所述样本数据集中的正样本数据构建一个正样本训练子集，对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集，将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集，并基于所述当前回归树的训练集训练当前回归树，再根据所述每一颗回归树构建梯度提升决策树GBDT模型。2.如权利要求1所述的方法，其中，所述基于所述样本数据集中的正样本数据构建一个正样本训练子集包括：取所述样本数据集中的所有正样本数据构建一个正样本训练子集；或者，取所述样本数据集中的部分正样本数据构建一个正样本训练子集。3.如权利要求1所述的方法，其中，当正负样本比例已知的业务场景下，预估负样本数据量与正样本数据量比例为x时，则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍；当正负样本比例未知的业务场景下，则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。4.如权利要求1所述的方法，其中，所述基于该训练集训练当前回归树包括：通过所述当前回归树的训练集，及预设GBDT算法进行迭代训练，得到对应每次迭代训练的每一棵回归树。5.如权利要求4所述的方法，其中，所述通过所述当前回归树的训练集，及预设GBDT算法进行迭代训练，得到对应每次迭代训练的每一棵回归树，包括：从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设GBDT算法，以及第一参数，训练第一回归树，所述第一参数是为样本数据集中的全部样本数据的实际结果的均值；当训练得到所述第一回归树后，从所述样本训练集中选取第二训练集，并根据所述第二训练集、预设GBDT算法，以及第二参数，训练第二回归树，所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测...

【专利技术属性】
技术研发人员：王海，涂威威，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人