在线GBDT模型学习方法及装置制造方法及图纸

技术编号：21659578 阅读：24 留言：0更新日期：2019-07-20 05:51

本公开提供一种在线GBDT预测模型学习方法，包括：获取用于学习GBDT预测模型的样本数据集；以及使用所述样本数据集来基于GBDT预测模型中的至少一个决策树的模型参数进行模型学习，以创建新决策树并且更新至少一个决策树的模型参数。此外，还可以从至少一个决策树去除部分决策树，并且基于去除处理后的GBDT预测模型来创建新决策树并更新决策树的模型参数。利用该方法，可以高效地实现GBDT预测模型学习。此外，还可以为GBDT预测模型的各个决策树赋予权重因子，由此提高模型预测准确性。

Online GBDT Model Learning Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
在线GBDT模型学习方法及装置
本公开通常涉及计算机
，更具体地，涉及用于在线学习GBDT模型的方法及装置。
技术介绍
随着人工智能的发展，对互联网、大数据中的数据挖掘与机器学习工作变得越来越重要，也因此产生了很多用于预测的模型，以用于处理待预测的数据。在多种机器学习算法中，GBDT(GradientBoostingDeisionTree,梯度提升决策树)算法由于其优异的学习性能，得到越来越广泛的应用。GBDT算法是一种用于回归、分类、排序等任务的机器学习技术，其通过结合多个弱学习器(通常为决策树)而获得强预测模型。图1示出一个常规的GBDT预测模型的示例，该GBDT预测模型由T个决策树g1(x)～gT(x)构成，并且该GBDT预测模型可以表示为：在每次使用新的样本数据集来训练GBDT预测模型时，需要对编号第1至第T棵决策树中的所有决策树gi(x)都进行训练，从而使得计算量大，并且消耗资源多。
技术实现思路
采用传统的GBDT模型所带来的一个问题，通过同一样本训练所得到的GBDT模型不能及时反映出应用场景、条件、及数据的变化。例如，对于业务系统来说，存在着商品更新、下架的可能，而且即使是同一用户，由于时间(例如季节)、地点的变化，对于用户在不同的时间或地点而发出的相同的购买查询请求，实际期望的目标商品也会不同，但如果平台始终利用同一预测模型来提供查询响应结果，则提供的预测结果则很难体现出差异。现有方案中通常采用更新的样本数据来重新学习GBDT预测模型的全部决策树。但可以发现，这样通常会导致计算量很大，增加了系统负担，而且仍不能准确地反映出时间变化的特征。...

【技术保护点】
1.一种用于在线学习GBDT预测模型的方法，所述GBDT预测模型包括至少一个决策树，所述方法包括：获取用于学习GBDT预测模型的样本数据集；以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习，以创建新决策树并且更新所述至少一个决策树的模型参数。

【技术特征摘要】
1.一种用于在线学习GBDT预测模型的方法，所述GBDT预测模型包括至少一个决策树，所述方法包括：获取用于学习GBDT预测模型的样本数据集；以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习，以创建新决策树并且更新所述至少一个决策树的模型参数。2.如权利要求1所述的方法，还包括：对所述至少一个决策树进行去除处理，以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习，以创建新决策树并且更新所述至少一个决策树的模型参数包括：使用所述样本数据集来基于所述经过去除处理后的至少一个决策树的模型参数进行模型学习，以创建新决策树并且更新所述经过去除处理后的至少一个决策树的模型参数。3.如权利要求2所述的方法，其中，对所述至少一个决策树进行去除处理包括：从所述至少一个决策树中去除创建时间最早的预定数目个决策树。4.如权利要求2所述的方法，其中，所述GBDT预测模型中的各个决策树被赋予权重因子，每个决策树的权重因子的取值与该决策树的创建时间或者用于创建该决策树的样本数据的生成时间成反比关系。5.如权利要求4所述的方法，其中，各个决策树的权重因子是随着该决策树的创建时间或者用于创建该决策树的样本数据的生成时间衰减的时间衰减因子。6.如权利要求2所述的方法，其中，所述GBDT预测模型中的各个决策树被赋予权重因子，以及所述各个决策树的权重因子被设置为随着该决策树的决策树编号的增加而单调下降，其中，所述各个决策树的决策树编号是基于该决策树的创建时间顺序编号的。7.如权利要求4到6中任一所述的方法，其中，对所述至少一个决策树进行去除处理包括：从所述至少一个决策树中去除权重因子小于预定阈值的决策树。8.如权利要求1所述的方法，其中，获取用于学习GBDT预测模型的样本数据集包括：获取预定时间间隔内的样本数据，作为用于学习GBDT预测模型的样本数据集；或者获取预定数据量的样本数据，作为用于学习GBDT预测模型的样本数据集。9.一种用于在线学习GBDT预测模型的装置，所述GBDT预测模型包括至少一个决策树，所述装置包括：样本数据获取单元，被配置为获取用于学习GBDT...

【专利技术属性】
技术研发人员：崔卿，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人