一种数据处理的方法和装置制造方法及图纸

技术编号:22722406 阅读:34 留言:0更新日期:2019-12-04 05:28
本发明专利技术公开了一种数据处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:确定用于训练数据处理模型的训练数据集,数据处理模型用于根据多个具有优先级顺序的策略进行数据处理;根据策略的优先级由高到低的顺序和预设的策略的组合方式,依次生成每个策略对应的决策树,并将优先级最低的策略对应的决策树作为数据处理模型。该实施方式能够实现根据多个具有优先级顺序的策略进行数据处理,从而实现了基于目标价值拆解和综合的分析方法与与之对应的损失函数解决了传统决策树处理价值单一的问题,使得对数据的处理更为合理和科学。

A method and device of data processing

The invention discloses a data processing method and device, which relates to the field of computer technology. A specific implementation of the method includes: determining the training data set used for the training data processing model, which is used for data processing according to multiple policies with priority order; generating the decision tree corresponding to each policy in turn according to the priority order from high to low and the combination mode of preset policies, and corresponding the policy with the lowest priority Decision tree is used as data processing model. The implementation mode can realize data processing according to multiple priority policies, thus realizing the analysis method based on target value decomposition and synthesis and the corresponding loss function to solve the problem of single value of traditional decision tree processing, making the data processing more reasonable and scientific.

【技术实现步骤摘要】
一种数据处理的方法和装置
本专利技术涉及计算机
,尤其涉及一种数据处理的方法和装置。
技术介绍
无论是营销场景还是风控场景,只要涉及具体业务的自动化处理,通常不会只依靠一个模型来制定自动化处理方案,因为模型通常只提供单价值衡量,而自动化处理方案通常会考虑多个价值因素(比如:稳定性、逾期率、信用度、覆盖率,等等),这种多价值衡量的自动化处理方案就是我们通常所说的“策略”。策略通常考虑的是决策树的实现方式,传统的决策树和其他机器学习模型一样,要求结构风险最小,也就是经验风险和泛化误差综合最小。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1、目前还没有相应的技术方案来模型化策略推荐方法;2、传统决策树缺乏处理多价值指标综合衡量的技术方案;3、由于传统决策树的所有叶子节点都与决策树顶层节点相关,如果顶层节点不稳定会导致叶子节点不可用,传统决策树缺乏这种增强树鲁棒性的方案。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理的方法和装置,能够实现根据多个具有优先级顺序的本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,包括:/n确定用于训练数据处理模型的训练数据集,所述数据处理模型用于根据多个具有优先级顺序的策略进行数据处理;/n根据策略的优先级由高到低的顺序和预设的策略的组合方式,依次生成每个策略对应的决策树,并将优先级最低的策略对应的决策树作为所述数据处理模型。/n

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:
确定用于训练数据处理模型的训练数据集,所述数据处理模型用于根据多个具有优先级顺序的策略进行数据处理;
根据策略的优先级由高到低的顺序和预设的策略的组合方式,依次生成每个策略对应的决策树,并将优先级最低的策略对应的决策树作为所述数据处理模型。


2.根据权利要求1所述的方法,其特征在于,
若所述策略为优先级最高的策略,则所述策略的决策树是通过对所述训练数据集进行训练得到的;
若所述策略不是优先级最高的策略,则所述策略的决策树是通过对第一训练数据集进行训练得到的,其中,所述第一训练数据集是根据较高优先级的策略对应的决策树输出的目标数据确定的,所述较高优先级的策略为优先级高于所述策略的优先级且与所述策略的优先级相邻的策略。


3.根据权利要求2所述的方法,其特征在于,策略对应的决策树是通过以下方式生成的:
对所述训练数据集或所述第一训练数据集进行训练,根据预设的评价指标确定剪枝规则和损失函数,然后根据所述剪枝规则和所述损失函数确定决策树的分裂方式以生成策略对应的决策树。


4.根据权利要求1所述的方法,其特征在于,确定用于训练数据处理模型的训练数据集包括:
按照预设的分箱规则对输入的训练数据进行变换以得到无重复特征集;
对所述无重复特征集进行聚合得到数据组;
将所有训练数据对应的数据组集合作为训练数据集。


5.根据权利要求1所述的方法,其特征在于,对所述训练数据集进行训练之前,还包括:
对所述训练数据集中包括的变量进行分类,以得到用于生成第一策略的决策树的顶层节点的分群变量和用于生成下游节点的下游变量。


6.根据权利要求1所述的方法,其特征在于,根据策略的优先级由高到低的顺序和预设的策略的组合方式,依次生成每个策略对应的决策树包括:...

【专利技术属性】
技术研发人员:刘栋程建波彭南博郑爱国
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1