决策树生成方法和装置制造方法及图纸

技术编号:20161144 阅读:31 留言:0更新日期:2019-01-19 00:13
说明书披露一种决策树生成方法和装置。所述方法包括:获取基础决策树,所述基础决策树基于第一类样本数据生成;提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。

【技术实现步骤摘要】
决策树生成方法和装置
本说明书涉及机器学习
,尤其涉及一种决策树生成方法和装置。
技术介绍
决策树是一种基础的有监督学习模型,可以不断的对数据进行切割,以达到分割数据的目的。决策树的生成依赖大量有标签的样本,当样本数量较少时,训练得到的决策树的效果往往比较差。
技术实现思路
有鉴于此,本说明书提供一种决策树生成方法和装置。具体地,本说明书是通过如下技术方案实现的:一种决策树生成方法,包括:获取基础决策树,所述基础决策树基于第一类样本数据生成;提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。一种决策树生成装置,包括:基础获取单元,获取基础决策树,所述基础决策树基于第一类样本数据生成;骨架提取单元,提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;目标训练单元,利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。一种决策树生成装置,包括:处理器;用于存储机器可执行指令的存储器;其中,通过读取并执行所述存储器存储的与决策树生成逻辑对应的机器可执行指令,所述处理器被促使:获取基础决策树,所述基础决策树基于第一类样本数据生成;提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。由以上描述可以看出,本说明书可从基础决策树中提取出树骨架,并可将该树骨架迁移到样本数据较少的场景中,基于该场景下的样本数据对所述树骨架进行训练,从而为样本数据较少的场景生成可信的决策树,解决了样本数据较少场景的模型训练问题。附图说明图1是本说明书一示例性实施例示出的一种决策树生成方法的流程示意图。图2是本说明书一示例性实施例示出的一种基础决策树示意图。图3是本说明书一示例性实施例示出的一种树骨架示意图。图4是本说明书一示例性实施例示出的一种用于决策树生成装置的一结构示意图。图5是本说明书一示例性实施例示出的一种决策树生成装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本说明书提供一种决策树生成方案,可从样本量较大场景的决策树中提取出树骨架,然后将树骨架迁移到样本量较少场景中,基于的该场景的样本数据对所述树骨架进行训练,从而为样本量较少的场景训练出较为可信的决策树。图1是本说明书一示例性实施例示出的一种决策树生成方法的流程示意图。请参考图1,所述决策树生成方法可以包括以下步骤:步骤102,获取基础决策树,所述基础决策树基于第一类样本数据生成。在本实施例中,所述第一类样本数据来自第一场景,所述第一场景通常为样本量较多的场景,基于所述第一类样本数据可生成面向指定主题的决策树,为便于区分,可将该决策树称为基础决策树。例如,可采用C4.5,C5等算法生成所述基础决策树。再例如,也可采用GBDT(GradientBoostingDecisionTree,梯度提升决策树)算法生成含有一棵树的基础决策树。在本实施例中,所述主题通常是分类判定主题,例如,套现判定、异常账号判定、洗钱判定等,本说明书对此不作特殊限制。在本实施例中,由于第一类样本量较多,生成的基础决策树较为可信。步骤104,提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值。在本实施例中,可从所述基础决策树的根节点开始向下提取部分节点和所述部分节点之间的分叉路径,也可从所述根节点开始向下提取所述基础决策树的所有节点和所述所有节点之间的分叉路径,以生成树骨架。所述树骨架可包括提取节点的分裂特征,但可不包括所述分裂特征的分裂值,也可以包括部分分裂特征的分裂值,本说明书对此不作特殊限制。步骤106,利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。在本实施例中,所述第二类样本数据来自第二场景,所述第二场景通常是样本量较少的场景,与所述第一场景具有部分相同的特征,例如,近3天交易总金额、当天转账总人数等。基于第二类样本数据生成的决策树拟合度往往过高,可信度较差。在本步骤中,可基于第二类样本数据对前述步骤104提取出的树骨架进行训练,从而得到所述树骨架缺少的分裂值,然后还可继续对所述树骨架进行延伸,以为所述第二场景生成相同主题的目标决策树。由以上描述可以看出,本说明书可从基础决策树中提取出树骨架,并可将该树骨架迁移到样本数据较少的场景中,基于该场景下的样本数据对所述树骨架进行训练,从而为样本数据较少的场景生成较为可信的决策树,解决了样本数据较少场景的模型训练问题。下面以指定主题是套现判定为例,对本说明书的具体实现过程进行详细描述。上述套现是指套取现金,一般是指用违法或虚假的手段交换取得现金利益,例如,信用卡套现、信贷产品套现等。在本实施例中,假设第一场景是O2O(OnlineToOffline,线上到线下)场景,例如,线下扫码支付。假设第二场景是收钱码场景,例如,用户扫描商家的静态二维码进行支付。在本实施例中,O2O场景中的套现判定样本较多,基于O2O场景下的第一类样本数据,可采用C4.5、C5等算法生成套现判定的基础决策树。假设在O2O场景中训练得到的基础决策树如图2所示。请参考图2,节点1是该基础决策树的根节点,节点2至节点7是该决策树的普通树节点,节点8至节点15是该基础决策树的叶子节点。该基础决策树包括若干分叉路径,所述分叉路径用于连接各个节点,例如,路径12连接根节点1和普通树节点2,路径13连接根节点1和普通树节点3等。该基础决策树的最大深度是3,深度可以理解为节点到根节点的距离,例如普通树节点2到根节点1的距离是1,即普通树节点2的深度是1;叶子节点8到根节点1的距离是3,即叶子节点8的深度是3等。节点分裂特征根节点1近10天交易总金额普通树节点2近5天交易总金额普通树节点3近5天转账人数普通树节点4近8天转账人数普通树节点5近3天转账人数……表1所述基础决策树中除叶子节点之外的每个节点都可代表一个分裂特征,请参考表1的示例,根节点1代表的分裂特征是近10天交易总金额,普通树节点2代表的分本文档来自技高网...

【技术保护点】
1.一种决策树生成方法,包括:获取基础决策树,所述基础决策树基于第一类样本数据生成;提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。

【技术特征摘要】
1.一种决策树生成方法,包括:获取基础决策树,所述基础决策树基于第一类样本数据生成;提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;利用第二类样本数据训练所述树骨架缺少的分裂值,得到目标决策树。2.根据权利要求1所述的方法,提取所述基础决策树的树骨架包括:从所述基础决策树的根节点开始向下提取小于等于指定深度的节点和所述节点之间的分叉路径,所述指定深度小于所述基础决策树的深度。3.根据权利要求1所述的方法,提取所述基础决策树的树骨架包括:从所述基础决策树的根节点开始向下提取所述基础决策树的所有节点和所述所有节点之间的分叉路径。4.根据权利要求2或3所述的方法,还包括:在利用第二类样本数据训练得到所述树骨架缺少的分裂值之后,基于所述第二样本数据,对所述树骨架进行延伸,并确定延伸节点的分裂特征和分裂值,直至收敛。5.根据权利要求1所述的方法,还包括:针对所述目标决策树的每个叶子节点,获取根节点到所述叶子节点的完整路径;根据所述完整路径上的节点的分裂特征和分裂值生成所述目标决策树对应的判定规则。6.一种决策树生成装置,包括:基础获取单元,获取基础决策树,所述基础决策树基于第一类样本数据生成;骨架提取单元,提取所述基础决策树的树骨架,所述树骨架包括节点的分裂特征,且不包括分裂值或包括部分分裂值;目...

【专利技术属性】
技术研发人员:李龙飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1