分布式决策树训练制造技术

技术编号：7079136 阅读：465 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及分布式决策树训练。计算机化的决策树训练系统可以包括被配置为接收用于训练决策树的训练数据输入的分布式控制处理单元。系统可以进一步包括多个数据批处理单元，其中每个数据批处理单元被配置为为训练数据的分别的数据批次评估决策树的多个分裂函数中的每一个，从而为每个分裂函数、为数据批次中的每个数据计算部分的直方图。系统可以进一步包括多个节点批处理单元，节点批处理单元被配置为为每个分裂函数聚集相关的部分直方图，以为边缘树节点的子集中的每个节点的每个分裂函数形成聚集的直方图，并且被配置为通过计算为边缘树节点产生最高的信息增益的分裂函数来为每个边缘树节点确定选定的分裂函数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，尤其涉及计算机领域中的决策树训练。
技术介绍
可以运用机器学习技术以使得计算机能够处理实验数据并且得出关于其的结论。一个示例的机器学习技术是基于示例数据训练决策树，以及应用经训练的决策树以将未知数据分类为若干类中的一个。在众多应用中，为决策树的训练使用尽可能大的数据集可以获得更准确的结果。但是，使用大数据集的决策树训练的一个缺点是这种训练可以使计算系统的处理器或存储器资源无法承受，从而造成决策树的训练是不实际或不可能的。因此，计算机科学家和软件开发者受到他们可以用来训练决策树的数据集大小和复杂度的限制，并且难以取得在这种决策树的分类能力上的改进。
技术实现思路
提供计算机化的决策树训练系统和方法。计算机化的决策树训练系统可以包括被配置为接收用于训练决策树的训练数据输入的分布式控制处理单元。系统可以进一步包括多个数据批处理单元，其中每个数据批处理单元被配置为为分别的训练数据的数据批次对决策树的多个分裂函数中的每一个评估，从而为每个分裂函数、为数据批次中的每个数据计算部分的直方图。系统可以进一步包括多个节点批处理单元，节点批处理单元被配置为为每个分裂函数聚集相关的部分直方图，以为边缘树节点的子集中的每个节点的每个分裂函数形成聚集的直方图，并且被配置为通过计算为边缘树节点产生最高的信息增益的分裂函数来为每个边缘树节点确定选定的分裂函数。提供本概述以便用一种简单的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在确定所要求保护的主题的关键或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在...

【技术保护点】
１．一种计算机化的决策树训练系统（１０），所述系统包括：被配置为接收用于训练决策树（１６）的训练数据（１４）的输入的分布式控制处理单元（５０），训练数据（１４）包括多个数据单元（１８），每个数据单元（１８）进一步包括具有相关类标签的至少一个示例数据；多个数据批处理单元（５４），每个数据批处理单元（５４）被配置为从分布式控制处理单元（５０）接收表示训练数据（１４）中数据单元（１８）的子集的分别的数据批次（６４），并且被配置为为分别的数据批次（６４）评估决策树（１６）的多个分裂函数中的每一个，从而为数据批次（６４）中的每个分裂函数和每个数据计算部分直方图（５６）；以及多个节点批处理单元（５８），对于分别的树节点批次（６６）中决策树（１６）的边缘树节点（４８）的每个子集，每个节点批处理单元（５８）被配置为聚集每个分裂函数的相关的部分直方图（５６）以在子集的每个边缘树节点（４８）处为每个分裂函数形成聚集的直方图（６０），所述每个节点批处理单元（５８）被配置为通过计算为边缘树节点（４８）产生最高信息增益的分裂函数来为分别的子集中的每个边缘树节点（４８）确定选定的分裂函数；所述分布式控制处理单元（...

【技术特征摘要】
...

【专利技术属性】
技术研发人员：J·肖顿，MD·布迪尤，A·W·费茨吉本，M·菲诺齐奥，R·E·摩尔，D·罗伯逊，
申请(专利权)人：微软公司，
类型：发明
国别省市：US

全部详细技术资料下载我是这个专利的主人