【技术实现步骤摘要】
模型训练方法、装置、电子设备及计算机存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种模型训练方法、装置、电子设备及计算机存储介质。
技术介绍
[0002]现有技术中,为了解决人工对大量数据进行分析和挖掘输出筛选条件存在的劳动成本高、无法满足现今需要快速迭代的需求的问题,采用训练出的决策树挖掘数据特征,但是现有训练出的决策树稳定性差,且容易出现过拟合问题,导致训练出的决策树在实际使用过程中效果并不好。
技术实现思路
[0003]有鉴于此,本申请实施例提供一种模型训练方案,以至少部分解决上述问题。
[0004]根据本申请实施例的第一方面,提供了一种模型训练方法,包括:获取目标对象的样本特征数据、以及所述样本特征数据对应的样本标签;根据所述样本特征数据对应的样本标签,对所述样本特征数据进行分箱处理;根据分箱处理后的样本特征数据及对应的样本标签,确定训练样本;使用所述训练样本对决策树进行训练,以确定所述决策树包含的节点对应的筛选条件。
[0005]根据本申请实施例的第二方面,提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:获取目标对象的样本特征数据、以及所述样本特征数据对应的样本标签;根据所述样本特征数据对应的样本标签,对所述样本特征数据进行分箱处理;根据分箱处理后的样本特征数据及对应的样本标签,确定训练样本;使用所述训练样本对决策树进行训练,以确定所述决策树包含的节点对应的筛选条件。2.根据权利要求1所述的方法,其中,所述样本特征数据包括至少一个属性对应的属性值,所述根据所述样本特征数据对应的样本标签,对所述样本特征数据进行分箱处理,包括:按照选定的目标属性的属性值对所述样本特征数据进行排序,且具有相同属性值的样本特征数据确定为一个属性值组;依据排序结果指示的属性值组顺序,将相邻两个属性值组绑定为属性值集合;针对各属性值集合,根据所述属性值集合中样本特征数据和样本标签,计算属性值集合的卡方值;根据计算出的卡方值,对所述属性值集合的样本特征数据进行处理,以获得分箱处理后的样本特征数据。3.根据权利要求2所述的方法,其中,所述根据计算出的卡方值,对所述属性值集合的样本特征数据进行处理,以获得分箱处理后的样本特征数据,包括:根据计算出的卡方值,将卡方值最小的属性值集合内两个属性值组的样本特征数据进行合并处理,以获得分箱处理后的样本特征数据。4.根据权利要求1所述的方法,其中,训练的决策树至少包括根节点和多个叶子节点,各所述叶子节点到所述根节点的路径形成相应的决策分支;所述方法还包括:对不同的决策分支进行组合,并根据决策分支组合包含的节点对应的筛选条件、所述节点对应的相关样本、以及训练样本,确定目标决策分支组合;根据所述目标决策分支组合中包含的节点对应的筛选条件,确定筛选条件组合。5.根据权利要求4所述的方法,其中,所述对不同的决策分支进行组合,并根据决策分支组合包含的节点对应的筛选条件、所述节点对应的相关样本、以及训练样本,确定目标决策分支组合,包括:针对各所述决策分支,根据所述决策分支中节点对应的相关样本的数量和样本标签、以及训练样本的数量和样本标签,计算分支准确率;按照所述分支准确率,对不同所述决策分支进行组合,并根据不同决策分支组合对应的相关样本、以及所述训练样本,确定各决策分支组合对应的组合准确率;选取组合准确率满足设定阈值的决策分支组合作为所述目标决策分支组合。6.根据权利要求5所述的方法,其中,所述针对各所述决策分支,根据所述决策分支中节点对应的相关样本的数量和样本标签、以及训练样本的数量和样本标签,计算分支准确率,包括:根据所述决策分支中各节点对应的相关样本,确定所述决策分支的相关样本的数量、以及各相关样本对应的样本标签;
根据所述决策分支的相关样本的数量和样本标签、以及训练样本的样本数量和样本标签,分别计算所述决策分支对应的准确率和召回率;根据所述决策分支的...
【专利技术属性】
技术研发人员:邸红叶,徐慎昆,冀晨光,何秋果,
申请(专利权)人:阿里巴巴新加坡控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。