一种基于梯度提升决策树的模型训练方法及装置制造方法及图纸

技术编号：20589694 阅读：16 留言：0更新日期：2019-03-16 07:24

公开了一种基于梯度提升决策树的模型训练方法及装置。将一个GBDT算法流程划分为两个阶段，在前一阶段，从与目标业务场景相近的业务场景的数据域获取已标注样本依次训练若干决策树，并确定经过前一阶段训练后产生的训练残差；在后一阶段，从目标业务场景的数据域获取已标注样本，并基于所述训练残差，继续训练若干决策树。最终，应用于目标业务场景的模型实际上是由前一阶段训练出的决策树与后一阶段训练出的决策树集成得到的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于梯度提升决策树的模型训练方法及装置
本说明书实施例涉及信息
，尤其涉及一种基于梯度提升决策树的模型训练方法及装置。
技术介绍
众所周知，当需要训练应用于某个业务场景的预测模型时，通常需要从该业务场景的数据域获取大量数据进行标注，作为已标注样本，进行模型训练。如果已标注样本的数量较少，则通常无法得到效果合格的模型。需要说明的是，某个业务场景的数据域，实际上是基于该业务场景所产生的业务数据的集合。然而，实践中，某些特殊业务场景下积累的数据较少。这导致当需要训练应用于某个特殊业务场景的模型时，无法从该特殊业务场景的数据域获取足够的已标注样本，从而无法得到效果合格的模型。
技术实现思路
为了解决某些特殊业务场景下积累的数据较少导致无法训练出效果合格的模型的问题，本说明书实施例提供一种基于梯度提升决策树的模型训练方法及装置，技术方案如下：根据本说明书实施例的第1方面，提供一种基于梯度提升决策树的模型训练方法，用于训练应用于目标业务场景的目标模型，所述方法包括：获取第一样本集合；所述第一样本集合是从源业务场景的数据域获取的已标注样本的集合；所述源业务场景是与所述目标业务场景相近的业务场景；使用所述第一样本集合，执行梯度提升决策树GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练暂停条件；根据使用所述第一样本集合训练出的决策树，确定训练残差；获取第二样本集合；所述第二样本集合是从所述目标业务场景的数据域获取的已标注样本的集合；使用所述第二样本集合，基于所述训练残差继续执行GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练停止条件；其中，所述...

【技术保护点】
1.一种基于梯度提升决策树的模型训练方法，用于训练应用于目标业务场景的目标模型，所述方法包括：获取第一样本集合；所述第一样本集合是从源业务场景的数据域获取的已标注样本的集合；所述源业务场景是与所述目标业务场景相近的业务场景；使用所述第一样本集合，执行梯度提升决策树GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练暂停条件；根据使用所述第一样本集合训练出的决策树，确定训练残差；获取第二样本集合；所述第二样本集合是从所述目标业务场景的数据域获取的已标注样本的集合；使用所述第二样本集合，基于所述训练残差继续执行GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练停止条件；其中，所述目标模型是由已训练出的决策树集成得到的。

【技术特征摘要】
1.一种基于梯度提升决策树的模型训练方法，用于训练应用于目标业务场景的目标模型，所述方法包括：获取第一样本集合；所述第一样本集合是从源业务场景的数据域获取的已标注样本的集合；所述源业务场景是与所述目标业务场景相近的业务场景；使用所述第一样本集合，执行梯度提升决策树GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练暂停条件；根据使用所述第一样本集合训练出的决策树，确定训练残差；获取第二样本集合；所述第二样本集合是从所述目标业务场景的数据域获取的已标注样本的集合；使用所述第二样本集合，基于所述训练残差继续执行GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练停止条件；其中，所述目标模型是由已训练出的决策树集成得到的。2.如权利要求1所述的方法，所述训练暂停条件，具体包括：使用所述第一样本集合训练出的决策树的数量达到第一指定数量。3.如权利要求1所述的方法，所述训练停止条件，具体包括：使用所述第二样本集合训练出的决策树的数量达到第二指定数量。4.如权利要求1所述的方法，在使用所述第二样本集合，基于所述训练残差继续执行GBDT算法流程之前，所述方法还包括：获取第三样本集合；所述第三样本集合是从其他源业务场景的数据域获取的已标注样本的集合；使用所述第三样本集合，基于所述训练残差继续执行GBDT算法流程，依次训练至少一个决策树，直至满足预设的训练再暂停条件；根据使用所述第一样本集合训练出的决策树和使用所述第三样本集合训练出的决策树，重新确定所述训练残差。5.如权利要求4所述的方法，所述训练再暂停条件，具体包括：使用所述第三样本集合训练出的决策树的数量达到第三指定数量。6.一种预测方法，包括：从目标业务场景的数据域获取待预测数据；根据所述待预测数据，确定所述待预测数据对应的模型输入特征；将所述模型输入特征输入到应用于所述目标业务场景的预测模型，以输出预测结果；所述预测模型是根据权利要求1～5任一项所述的方法得到的。7.一种基于梯度提升决策树的模型训练装置，用于训练应用于目标业务场景的目标模型，所述装置包括：第一获取模块，获取第一样本集合；所述第一样本集合是从源业务场景的数据域获取的已标注样本的集合；所述源业务场景是与所述...

【专利技术属性】
技术研发人员：陈超超，周俊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人