一种用于更新分类模型的方法及装置制造方法及图纸

技术编号:13323417 阅读:77 留言:0更新日期:2016-07-11 10:23
本申请公开了一种用于更新分类模型的方法,包括:从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;确定新增决策树的数量;根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;汇总所选的决策树,得到更新后的分类模型。本申请同时提供一种用于更新分类模型的装置。采用本申请提供的方法,由于不需要根据全量数据进行训练,而是在原有分类模型的基础上采用增量更新方式,因此可以提高模型训练的效率、实现对业务的快速响应。

【技术实现步骤摘要】

本申请涉及基于决策树的分类模型,具体涉及一种用于更新分类模型的方法。本申请同时涉及一种用于更新分类模型的装置。
技术介绍
随着互联网技术的发展,出现了大量的网络应用,例如:网络社交、网络阅读等,网络应用提供方为了向用户推荐更有针对性的信息、或者进行必要的监控管理,通常需要根据用户在网络应用中的操作行为,针对预先设定的目标进行分类预测,例如:用户是否属于活跃群体、用户的操作行为是否存在潜在风险等。为了提高预测效率和准确性,在大多数网络应用中通常采用分类模型进行分类预测。所谓分类模型(也常常称作分类器),是指根据数据的特点把未知类别的样本映射到给定类别中的某一个。构造分类模型的过程通常分为训练和测试两个阶段。在训练阶段,通过分析由属性描述的训练样本集来构造模型,在测试阶段,使用测试样本集来评估模型的分类准确率,如果分类准确率满足一定的要求,则分类模型就可以投入实际应用,对未知类别的样本进行分类预测。分类模型的构造过程通常由机器学习过程实现,其中决策树(decisiontree)是通过寻找属性和类别之间的关系来进行类别的预测。为了提升分类的正确性,在决策树的基础上又出现了随机森林分类器,即:由多个决策树组成的分类器,当待分类样本进入随机森林时,其实就是让每一颗决策树进行分类,最后选取被所有决策树选择次数最多的类别作为最终的分类结果。上述基于决策树的分类模型在互联网领域得到了广泛的应用,针对这类模型的机器学习过程,基本都采用离线学习方式:通过对全量的历史用户行为数据的学习、分析,得出关于分类的知识,从而完成对分类模型的构建并部署上线。随着时间的推移,用户的行为规律通常会发生变化,各个网络应用或者网站向用户呈现的商品、信息等也处于不断地调整之中,导致分类模型的预测结果与实际分类不一致的程度超出了预先设定的范围,即:分类模型退化,其分类的准确率已无法满足要求。针对这种情况,现有技术通常采用人工干预进行离线计算的方式,利用全量历史数据重新训练分类模型,并将训练好的分类模型再次部署上线进行分类预测。上述更新分类模型的方式,存在以下缺陷:1)每次都采用全量数据进行分类模型的构建,随着数据量的增大、处理时间会相应延长,导致模型训练效率降低;2)通常在分类模型退化后才重新进行训练,也就是说分类模型不能实时或者及时地根据数据的变化做出相应的调整,导致业务响应慢,在一些相对比较敏感的业务领域,例如:风险控制领域,不法分子就可能利用这一缺陷通过多次尝试达到绕过分类模型、避免被识别的目的,导致系统防控的滞后性。
技术实现思路
本申请提供一种用于更新分类模型的方法,以解决现有分类模型更新方式训练效率低、以及更新不及时的问题。本申请另外提供一种用于更新分类模型的装置。本申请提供一种用于更新分类模型的方法,所述分类模型由预定数量的决策树组成,用于根据网络应用中的用户行为数据进行类别预测,所述方法包括:从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;确定新增决策树的数量;根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;汇总所选的决策树,得到更新后的分类模型。可选的,所述确定新增决策树的数量是指,使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量。可选的,所述使用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树的数量,包括:使用所述训练样本集中的每个样本,验证所述分类模型的正确性;根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到新样本集所遵循的离散概率分布;根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将该随机数值作为所述新增决策树的数量。可选的,所述使用所述训练样本集中的每个样本,验证所述分类模型的正确性,包括:根据训练样本包含的属性信息,采用所述分类模型进行类别预测;判断预测的类别与所述训练样本的实际类别是否一致;若一致,判定所述分类模型对所述训练样本的分类结果是正确的。可选的,所述根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树,包括:根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并根据所选属性进行分裂的方式生成一棵新决策树;所述按照预定策略选取属性是指,从随机选择的样本属性中按照预定策略选取属性;转到所述根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合的步骤继续执行,直至生成所述新增数量的决策树。可选的,所述按照预定策略选取属性包括:根据信息增益选取属性、根据信息增益率选取属性、或者根据基尼指标选取属性。可选的,在所述采用在每个节点按照预定策略选取属性、并根据所选属性进行分裂的方式生成一棵新决策树之后,执行下述操作:计算表征所述新决策树的分类效果的指标;相应的,所述按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树,包括:针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排序;从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。可选的,所述表征所述新决策树的分类效果的指标是指,袋外数据误差;相应的,所述针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标包括:将每棵新决策树的袋外数据汇总得到袋外数据集合;使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类效果的袋外数据误差。可选的,在执行所述确定新增决策树的数量的步骤之前,执行下述操作:判断是否已创建所述分类模型;若否,所述确定新增决策树的数量是指,将预先设定的、分类模型包含决策树的数量作为所述新增决策树的数量;相应的,在执行所述采用随机森林算法生成所述新增数量的决策树后,直接执行所述汇总所选的决策树得到更新后的分类模型的步骤,已生成的所述新增数量的决策树即为所选的决策树本文档来自技高网
...

【技术保护点】
一种用于更新分类模型的方法,所述分类模型由预定数量的决策树组成,用于根据网络应用中的用户行为数据进行类别预测,其特征在于,包括:从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作为训练样本集;确定新增决策树的数量;根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树;汇总所选的决策树,得到更新后的分类模型。

【技术特征摘要】
1.一种用于更新分类模型的方法,所述分类模型由预定数量的决策树组成,
用于根据网络应用中的用户行为数据进行类别预测,其特征在于,包括:
从提供所述用户行为数据的服务器中,获取预定时间段内的增量数据,作
为训练样本集;
确定新增决策树的数量;
根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树;
按照分类效果对所述分类模型包含的决策树和所述新生成的决策树进行排
序,并从中选择序位处于高位的、所述预定数量的决策树;
汇总所选的决策树,得到更新后的分类模型。
2.根据权利要求1所述的用于更新分类模型的方法,其特征在于,所述确
定新增决策树的数量是指,使用所述训练样本集对所述分类模型进行验证,并
根据验证结果确定新增决策树的数量。
3.根据权利要求2所述的用于更新分类模型的方法,其特征在于,所述使
用所述训练样本集对所述分类模型进行验证,并根据验证结果确定新增决策树
的数量,包括:
使用所述训练样本集中的每个样本,验证所述分类模型的正确性;
根据验证结果,计算所述分类模型对所述训练样本集进行分类的正确率;
根据所述正确率确定泊松分布的参数值,使得所述正确率与所述泊松分布
的参数值满足反比关系;所述泊松分布是针对训练样本集执行有放回抽样得到
新样本集所遵循的离散概率分布;
根据所述泊松分布的参数值确定符合所述离散概率分布的随机数值,并将
该随机数值作为所述新增决策树的数量。
4.根据权利要求3所述的用于更新分类模型的方法,其特征在于,所述使
用所述训练样本集中的每个样本,验证所述分类模型的正确性,包括:
根据训练样本包含的属性信息,采用所述分类模型进行类别预测;
判断预测的类别与所述训练样本的实际类别是否一致;
若一致,判定所述分类模型对所述训练样本的分类结果是正确的。
5.根据权利要求1-4任一所述的用于更新分类模型的方法,其特征在于,
所述根据所述训练样本集,采用随机森林算法生成所述新增数量的决策树,包

\t括:
根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集合;
使用所述bootstrap样本集合,采用在每个节点按照预定策略选取属性、并
根据所选属性进行分裂的方式生成一棵新决策树;所述按照预定策略选取属性
是指,从随机选择的样本属性中按照预定策略选取属性;
转到所述根据所述训练样本集采用有放回抽样的方式构建bootstrap样本集
合的步骤继续执行,直至生成所述新增数量的决策树。
6.根据权利要求5所述的用于更新分类模型的方法,其特征在于,所述按
照预定策略选取属性包括:根据信息增益选取属性、根据信息增益率选取属性、
或者根据基尼指标选取属性。
7.根据权利要求5所述的用于更新分类模型的方法,其特征在于,在所述
采用在每个节点按照预定策略选取属性、并根据所选属性进行分裂的方式生成
一棵新决策树之后,执行下述操作:
计算表征所述新决策树的分类效果的指标;
相应的,所述按照分类效果对所述分类模型包含的决策树和所述新生成的
决策树进行排序,并从中选择序位处于高位的、所述预定数量的决策树,包括:
针对所述分类模型包含的每棵决策树,计算表征其分类效果的指标;
按照所述指标对所述分类模型包含的决策树和所述新生成的决策树进行排
序;
从排序后的决策树中选择序位处于高位的、所述特定数量的决策树。
8.根据权利要求7所述的用于更新分类模型的方法,其特征在于,所述表
征所述新决策树的分类效果的指标是指,袋外数据误差;
相应的,所述针对所述分类模型包含的每棵决策树,计算表征其分类效果
的指标包括:
将每棵新决策树的袋外数据汇总得到袋外数据集合;
使用所述袋外数据集合,计算表征所述分类模型包含的每棵决策树的分类
效果的袋外数据误差。
9.根据权利要求1所述的用于更新分类模型的方法,其特征在于,在执行
所述确定新增决策树的数量的步骤之前,执行下述操作:
判断是否已创建所述分类模型;
若否,所述确定新增决策树的数量是指,将预先设定的、分类模型包含决
策树的数量作为所述新增决策树的数量;相应的,在执行所述采用随机森林算
法生成所述新增数量的决策树后,直接执行所述汇总所选的决策树得到更新后
的分类模型的步骤,已生成的所述新增数量的决策树即为所选的决策树。
10.一种用于更新分类模型的装置,其特征在于,包括:
训练样本集获取单元,用于从提供所述用户行为数据的服务器中...

【专利技术属性】
技术研发人员:沈雄
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1