The present disclosure relates to a decision tree generation method, a device, a computer readable storage medium and an electronic device. The method includes: acquiring sample data sets, in which the sample data sets include the original feature set and the target column; preprocessing the original feature set to form the target feature set; calculating the first correlation degree between the features in the target feature set and the target column respectively; and based on the first correlation degree between the features in the target feature set and the target column. Relevance degree generates decision tree. Thus, the decision tree generation method can be applied to both discrete variables and continuous variables, that is, it can be used to deal with classification problems and regression problems. In addition, invalid feature filtering is not necessary in the process of decision tree generation, and the performance of decision tree is guaranteed.
【技术实现步骤摘要】
决策树生成方法、装置、计算机可读存储介质及电子设备
本公开涉及机器学习领域,具体地,涉及一种决策树生成方法、装置、计算机可读存储介质及电子设备。
技术介绍
决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,它代表的是对象属性(即特征)与对象值(目标列)之间的一种映射关系。通常采用ID3算法、C4.5算法、及C5.0算法等生成决策树。由于以上生成决策树的算法并没有对无效特征进行过滤,也就是说,有些并不重要的或是噪音的特征有可能会被选择作为重要的特征(接近根节点或是根节点)。为此,人们提出了使用卡方自动交互检测方法(chi-squaredautomaticinteractiondetector,CHAID)来生成决策树。CHAID是一个用来发现变量之间关系的工具,它是一种基于调整后的显著性检验决策树技术。其核心思想是:根据给定的反应变量和 ...
【技术保护点】
1.一种决策树生成方法,其特征在于,包括:获取样本数据集,其中,所述样本数据集包括原始特征集和目标列;对所述原始特征集进行数据预处理,形成目标特征集;分别计算所述目标特征集中各特征与所述目标列之间的第一关联度;基于所述目标特征集中所述各特征与所述目标列之间的第一关联度,生成决策树。
【技术特征摘要】
1.一种决策树生成方法,其特征在于,包括:获取样本数据集,其中,所述样本数据集包括原始特征集和目标列;对所述原始特征集进行数据预处理,形成目标特征集;分别计算所述目标特征集中各特征与所述目标列之间的第一关联度;基于所述目标特征集中所述各特征与所述目标列之间的第一关联度,生成决策树。2.根据权利要求1所述的方法,其特征在于,所述分别计算所述目标特征集中各特征与所述目标列之间的第一关联度,包括:通过以下公式,分别计算所述目标特征集中各特征与所述目标列之间的第一关联度:其中,Corri为所述目标特征集中特征Xi与目标列Y之间的第一关联度;COV(Xi,Y)为所述特征Xi与所述目标列Y之间的协方差;为所述特征Xi的标准差;σY为所述目标列Y的标准差。3.根据权利要求1所述的方法,其特征在于,所述基于所述目标特征集中所述各特征与所述目标列之间的第一关联度,生成决策树,包括:将所述目标特征集中、与所述目标列之间的所述第一关联度最大的特征确定为目标分裂特征,并对所述目标分裂特征执行分裂操作;从所述目标特征集中删除所述目标分裂特征,返回所述将所述目标特征集中、与所述目标列之间的所述第一关联度最大的特征确定为目标分裂特征,并对所述目标分裂特征执行分裂操作的步骤,直到所述目标特征集为空时为止,以得到决策树。4.根据权利要求1所述的方法,其特征在于,所述数据预处理包括缺失值处理和/或异常值处理。5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述分别计算所述目标特征集中各特征与所述目标列之间的第一关联度的步骤之前,所述方法还包括:分别计算所述目标特征集中每两个特征之间的第二关联度;针对第二关联度大于预设阈值的两个特征,从所述目标特征集中剔除这两个特征中的任一者。6.根据权利要求1-4中任一项所述的方法,其特征在于,在所述基于所述目标特征集中所述各特征与所述目标列之间的第一关联度,生成决策树的步骤之前,所述方法还包括:分别计算所述目标特征集中每两个特征之间的第二关联度;针对所述每两个特征,判定所述第二关联度和该两个特征中的每个特征与所述目标列之间的所述第一关联度是否满足预设条件;若所述第二关联度和该两个特征中的每个特征与所述目标列之间的所述第一...
【专利技术属性】
技术研发人员:张雷,高睿,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。