【技术实现步骤摘要】
针对决策树的节点的数据的预统计
技术介绍
决策树是机器学习模型或过程中广泛使用的一项技术。利用该技术,可以对数据之间的非线性相关性进行建模,并且可以得到能够解释的结果,而无需额外的诸如归一化等特征预处理。在与不同的损失函数组合时,决策树可以跨分类、递归和排名等各种领域使用。而且,在与诸如套袋法(bagging)和提升法(boosting)等不同的集成技术组合时,可以衍生出多种决策树算法,例如包括随机森林、梯度提升决策树(GBDT)等等。作为示例,决策树已经通过与不同的损失函数和不同的集成技术组合而广泛用于如下网络(例如Web)应用中:Web搜索中的文档排名、广告目标的点击预测、等等。在决策树算法中,通过从根部递归地对各个节点进行分裂来实现单棵树的拟合。传统的决策树的生成需要对训练数据进行可观数目的访问,这种频繁的访问将不可避免地引入了很大的处理延时,大大降低了处理效率。
技术实现思路
本公开的实施例提出了一种基于决策树的数据处理机制。该机制针对节点的数据样本的特征值进行预统计,以找出较多特征值所落入的数值范围。借助于该统计在将数据样本分配到节点的子节点时仅需要对一少部分数据进行访问。在一些实施例中,针对决策树的节点的多个数据样本被获取,这些数据样本关于某个特征具有相应的特征值。继而,来自于预定义的多个数值范围中的目标范围被确定,使得落入目标范围中的特征值的数目超过了预定阈值数目。相应地,只需将除落入目标范围中的特征值之外的其余特征值分配到相应的数值范围,就可以对落入所有数值范围中的特征值计数,以用于多个数据样本向节点的子节点的分配。此种方式,可以显著提高数据处理速度 ...
【技术保护点】
1.一种基于决策树的数据处理方法,包括:获取针对所述决策树的节点的多个数据样本,所述多个数据样本关于第一特征具有相应的特征值;从预定义的多个数值范围中确定目标范围,使得落入所述目标范围中的特征值的数目超过第一阈值数目;将除落入所述目标范围中的所述特征值之外的其余特征值分配到所述多个数值范围;以及基于所述其余特征值的所述分配,对落入所述多个数值范围中的所述特征值计数,以用于所述多个数据样本向所述节点的子节点的分配。
【技术特征摘要】
1.一种基于决策树的数据处理方法,包括:获取针对所述决策树的节点的多个数据样本,所述多个数据样本关于第一特征具有相应的特征值;从预定义的多个数值范围中确定目标范围,使得落入所述目标范围中的特征值的数目超过第一阈值数目;将除落入所述目标范围中的所述特征值之外的其余特征值分配到所述多个数值范围;以及基于所述其余特征值的所述分配,对落入所述多个数值范围中的所述特征值计数,以用于所述多个数据样本向所述节点的子节点的分配。2.根据权利要求1所述的方法,其中对所述特征值计数包括:用所述多个数据样本的总数,减去落入除所述目标范围之外的其余数值范围的特征值的数目,作为落入所述目标范围中的特征值数目。3.根据权利要求1所述的方法,其中所述数据处理分布在多个机器上执行,并且获取所述多个数据样本包括:在所述多个机器中的一个机器处,确定针对所述节点的数据样本集合中的样本数目是否低于第二阈值数目;以及响应于所述样本数目低于所述第二阈值数目,选择所述数据样本集合中的所有数据样本作为所述多个数据样本。4.根据权利要求3所述的方法,其中所述第一特征选自一个特征集合,并且所述第二阈值数目至少部分地基于所述特征集合中的特征数目和所述多个数值范围的数目的第一乘积来确定。5.根据权利要求4所述的方法,其中所述第二阈值数目进一步至少部分地基于所述多个机器的数目和所述第一乘积的第二乘积来确定。6.根据权利要求3所述的方法,其中所述子节点至少包括左子节点和右子节点,并且所述方法还包括:在所述多个机器中的所述一个机器处,获得第二特征和所述第二特征的阈值特征值;从所述数据样本集合中选择一个数据样本子集;以及针对所述数据样本子集中的每个数据样本:将该数据样本的关于所述第二特征的特征值与所述阈值特征值比较,基于所述比较来确定将该数据样本分配给所述左子节点还是所述右子节点,以及向所述多个机器中的另一机器发送用于指示所述确定的1比特指示符。7.根据权利要求3所述的方法,其中获取所述多个数据样本还包括:响应于所述样本数目高于所述第二阈值数目,在所述多个机器中的所述一个机器处,选择所述数据样本集合的子集作为所述多个数据样本。8.根据权利要求1所述的方法,还包括:基于所述特征值计数将所述数据样本从所述节点分配到所述子节点;确定是否已经获得所述决策树的多个叶子节点候选,所述多个叶子节点候选的数目超过第三阈值数目;响应于确定已经获得所述多个叶子节点候选,获取所述决策树的底层子树,所述底层子树包括具有相同父节点的所述叶子节点候选和所述父节点;以及响应于针对所述底层子树中的所述叶子节点候选的数据样本之间的差异低于阈值差异,将所述底层子树中的所述叶子节点候选移除。9.根据权利要求8所述的方法,其中所述节点具有兄弟节点,并且将所述数据样本从所述节点分配到所述子节点还包括:并行地执行所述数据样本从所述节点到所述子节点的分配以及针对所述兄弟节点的数据样本向所述兄弟节点的子节点的分配。10.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且存储有指令,所述指令在由所述处理单元执行时执行基于决策树的数据处理,包括动作:获取针对所述决策树的节点的多个数据样本,所述多个数据样本关于第一特征具有相应的特征值;从预定义的多个数值范围中确定目标范围,使得落入所述目标范围中的特征值的数目超过第一阈值数目;将除落入所述目标范围中的所述特征值之外的其余特征值分配到所述多个数值范围;以及基于所述其余特征值的所述分配,对落入所述多个数值范围中的所述特征值计数,以用于所述多个数据样本向所述节点的子节点的分配。11.根据权利要求10所述的设备,其中对所述特...
【专利技术属性】
技术研发人员:周虎成,李翠,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。