在线GBDT模型学习方法及装置制造方法及图纸

技术编号:21659578 阅读:24 留言:0更新日期:2019-07-20 05:51
本公开提供一种在线GBDT预测模型学习方法,包括:获取用于学习GBDT预测模型的样本数据集;以及使用所述样本数据集来基于GBDT预测模型中的至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新至少一个决策树的模型参数。此外,还可以从至少一个决策树去除部分决策树,并且基于去除处理后的GBDT预测模型来创建新决策树并更新决策树的模型参数。利用该方法,可以高效地实现GBDT预测模型学习。此外,还可以为GBDT预测模型的各个决策树赋予权重因子,由此提高模型预测准确性。

Online GBDT Model Learning Method and Device

【技术实现步骤摘要】
在线GBDT模型学习方法及装置
本公开通常涉及计算机
,更具体地,涉及用于在线学习GBDT模型的方法及装置。
技术介绍
随着人工智能的发展,对互联网、大数据中的数据挖掘与机器学习工作变得越来越重要,也因此产生了很多用于预测的模型,以用于处理待预测的数据。在多种机器学习算法中,GBDT(GradientBoostingDeisionTree,梯度提升决策树)算法由于其优异的学习性能,得到越来越广泛的应用。GBDT算法是一种用于回归、分类、排序等任务的机器学习技术,其通过结合多个弱学习器(通常为决策树)而获得强预测模型。图1示出一个常规的GBDT预测模型的示例,该GBDT预测模型由T个决策树g1(x)~gT(x)构成,并且该GBDT预测模型可以表示为:在每次使用新的样本数据集来训练GBDT预测模型时,需要对编号第1至第T棵决策树中的所有决策树gi(x)都进行训练,从而使得计算量大,并且消耗资源多。
技术实现思路
采用传统的GBDT模型所带来的一个问题,通过同一样本训练所得到的GBDT模型不能及时反映出应用场景、条件、及数据的变化。例如,对于业务系统来说,存在着商品更新、下架的可能,而且即使是同一用户,由于时间(例如季节)、地点的变化,对于用户在不同的时间或地点而发出的相同的购买查询请求,实际期望的目标商品也会不同,但如果平台始终利用同一预测模型来提供查询响应结果,则提供的预测结果则很难体现出差异。现有方案中通常采用更新的样本数据来重新学习GBDT预测模型的全部决策树。但可以发现,这样通常会导致计算量很大,增加了系统负担,而且仍不能准确地反映出时间变化的特征。本专利技术提出一种改进的GBDT预测模型学习方法,通过在线获取随时间变化的样本数据,并使用在线获取的样本数据训练新的决策树以加入GBDT预测模型来进行GBDT预测模型更新,可以使得GBDT预测模型更新更加迅速,并且能够跟随特征随时间的变化,从而使得GBDT预测模型的预测结果更加准确。根据本公开的一个方面,提供了一种用于在线学习GBDT预测模型的方法,所述GBDT预测模型包括至少一个决策树,所述方法包括:获取用于学习GBDT预测模型的样本数据集;以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述至少一个决策树的模型参数。可选地,在上述方面的一个示例中,所述方法还可以包括:对所述至少一个决策树进行去除处理,以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述至少一个决策树的模型参数包括:使用所述样本数据集来基于所述经过去除处理后的至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述经过去除处理后的至少一个决策树的模型参数。可选地,在上述方面的一个示例中,对所述至少一个决策树进行去除处理可以包括:从所述至少一个决策树中去除创建时间最早的预定数目个决策树。可选地,在上述方面的一个示例中,所述GBDT预测模型中的各个决策树被赋予权重因子,每个决策树的权重因子的取值与该决策树的创建时间或者用于创建该决策树的样本数据的生成时间成反比关系。可选地,在上述方面的一个示例中,各个决策树的权重因子是随着该决策树的创建时间或者用于创建该决策树的样本数据的生成时间衰减的时间衰减因子。可选地,在上述方面的一个示例中,所述GBDT预测模型中的各个决策树被赋予权重因子,以及所述各个决策树的权重因子被设置为随着该决策树的决策树编号的增加而单调下降,其中,所述各个决策树的决策树编号是基于该决策树的创建时间顺序编号的。可选地,在上述方面的一个示例中,对所述至少一个决策树进行去除处理包括:从所述至少一个决策树中去除权重因子小于预定阈值的决策树。可选地,在上述方面的一个示例中,获取用于学习GBDT预测模型的样本数据集可以包括:获取预定时间间隔内的样本数据,作为用于学习GBDT预测模型的样本数据集;或者获取预定数据量的样本数据,作为用于学习GBDT预测模型的样本数据集。根据本公开的另一方面,提供一种用于在线学习GBDT预测模型的装置,所述GBDT预测模型包括至少一个决策树,所述装置包括:样本数据获取单元,被配置为获取用于学习GBDT预测模型的样本数据集;以及模型学习单元,被配置为使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述至少一个决策树的模型参数。可选地,在上述方面的一个示例中,所述装置还可以包括:决策树去除单元,被配置为对所述至少一个决策树进行去除处理,以及所述模型学习单元被配置为:使用所述样本数据集来基于所述经过去除处理后的至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述经过去除处理后的至少一个决策树的模型参数。可选地,在上述方面的一个示例中,所述决策树去除单元被配置为:从所述至少一个决策树中去除创建时间最早的预定数目个决策树。可选地,在上述方面的一个示例中,所述GBDT预测模型中的各个决策树被赋予权重因子,每个决策树的权重因子的取值与该决策树的创建时间或者用于创建该决策树的样本数据的生成时间成反比关系。可选地,在上述方面的一个示例中,各个决策树的权重因子是随着该决策树的创建时间或者用于创建该决策树的样本数据的生成时间衰减的时间衰减因子。可选地,在上述方面的一个示例中,所述GBDT预测模型中的各个决策树被赋予权重因子,以及所述各个决策树的权重因子被设置为随着该决策树的决策树编号的增加而单调下降,其中,所述各个决策树的决策树编号是基于该决策树的创建时间顺序编号的。可选地,在上述方面的一个示例中,所述决策树去除单元被配置为:从所述至少一个决策树中去除权重因子小于预定阈值的决策树。可选地,在上述方面的一个示例中,所述样本数据获取单元被配置为:获取预定时间间隔内的样本数据,作为用于学习GBDT预测模型的样本数据集;或者获取预定数据量的样本数据,作为用于学习GBDT预测模型的样本数据集。根据本公开的另一方面,提供一种计算设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于在线学习GBDT预测模型的方法。根据本公开的另一方面,提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于在线学习GBDT预测模型的方法。附图说明通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。图1示出了现有技术的GBDT模型原理示意图;图2示出了根据本公开的实施例的用于在线学习GBDT预测模型的系统的方框图;图3示出了根据本公开的实施例的用于在线学习GBDT预测模型的方法的流程图;图4示出了根据本公开的实施例的在线学习GBDT模型原理示意图;图5示出了根据本公开的实施例的用于在线学习GBDT预测模型的装置的方框图;图6示出了根据本公开的实施例的用于在线学习GBDT预测模型的计算设备的方框图。具体实施方式现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,本文档来自技高网...

【技术保护点】
1.一种用于在线学习GBDT预测模型的方法,所述GBDT预测模型包括至少一个决策树,所述方法包括:获取用于学习GBDT预测模型的样本数据集;以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述至少一个决策树的模型参数。

【技术特征摘要】
1.一种用于在线学习GBDT预测模型的方法,所述GBDT预测模型包括至少一个决策树,所述方法包括:获取用于学习GBDT预测模型的样本数据集;以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述至少一个决策树的模型参数。2.如权利要求1所述的方法,还包括:对所述至少一个决策树进行去除处理,以及使用所述样本数据集来基于所述至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述至少一个决策树的模型参数包括:使用所述样本数据集来基于所述经过去除处理后的至少一个决策树的模型参数进行模型学习,以创建新决策树并且更新所述经过去除处理后的至少一个决策树的模型参数。3.如权利要求2所述的方法,其中,对所述至少一个决策树进行去除处理包括:从所述至少一个决策树中去除创建时间最早的预定数目个决策树。4.如权利要求2所述的方法,其中,所述GBDT预测模型中的各个决策树被赋予权重因子,每个决策树的权重因子的取值与该决策树的创建时间或者用于创建该决策树的样本数据的生成时间成反比关系。5.如权利要求4所述的方法,其中,各个决策树的权重因子是随着该决策树的创建时间或者用于创建该决策树的样本数据的生成时间衰减的时间衰减因子。6.如权利要求2所述的方法,其中,所述GBDT预测模型中的各个决策树被赋予权重因子,以及所述各个决策树的权重因子被设置为随着该决策树的决策树编号的增加而单调下降,其中,所述各个决策树的决策树编号是基于该决策树的创建时间顺序编号的。7.如权利要求4到6中任一所述的方法,其中,对所述至少一个决策树进行去除处理包括:从所述至少一个决策树中去除权重因子小于预定阈值的决策树。8.如权利要求1所述的方法,其中,获取用于学习GBDT预测模型的样本数据集包括:获取预定时间间隔内的样本数据,作为用于学习GBDT预测模型的样本数据集;或者获取预定数据量的样本数据,作为用于学习GBDT预测模型的样本数据集。9.一种用于在线学习GBDT预测模型的装置,所述GBDT预测模型包括至少一个决策树,所述装置包括:样本数据获取单元,被配置为获取用于学习GBDT...

【专利技术属性】
技术研发人员:崔卿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1