优化梯度提升特征选择制造技术

技术编号：30496950 阅读：28 留言：0更新日期：2021-10-27 22:28

梯度提升决策树相继堆叠许多决策树，决策树在每一步都试图修复残留误差。梯度提升决策树产生的最终分值仅是通过将决策树应用于输入向量而获得的各个分值的总和。从训练数据中删除对输出影响最小的输入值能够减少梯度提升决策树中的过度拟合。确定哪个输入变量具有低预测价值的一种方法是确定梯度提升决策树中的最新决策树中首次使用的输入变量。这种识别要删除哪些低预测性的特征的方法不需要重新生成较早的树以生成新的梯度提升决策树。由于在较早的树中未使用已删除特征，因此这些树早就忽略了已删除特征。早就忽略了已删除特征。早就忽略了已删除特征。

全部详细技术资料下载

【技术实现步骤摘要】
优化梯度提升特征选择

[0001]本文所公开的主题通常涉及用于机器学习的特征选择。具体地，本公开致力于改善梯度提升特征选择的系统和方法。

技术介绍

[0002]梯度提升决策树基于一个或多个输入预测目标变量的值。第一棵树的每个节点基于单个输入的值将输入空间分为两部分。在训练期间，第一棵树被限制在最大深度以防止过度拟合。并非通过增加深度以提高第一棵树的准确性，而是创建第二棵树，第二棵树预测来自第一棵树的预测值(predicted value)与变量的实际值之间的差异。重复此过程，直到达到终止条件为止。生成的树的集合(ensemble)用于为训练数据集中未包括的未标记数据预测目标值。
附图说明
[0003]在附图的各图中，通过示例而非限制的方式示出了一些实施例。
[0004]图1是示出根据一些示例实施例的适合于梯度提升特征选择的网络环境的网络图；
[0005]图2是根据一些示例实施例的适合于使用梯度提升特征选择训练梯度提升决策树的梯度提升决策树训练服务器的框图；
[0006]图3是示出具有二维输入变量空间的离散目标值的分布的图；
[0007]图4是示出用于从图3的二维输入变量空间预测目标值的决策树的图；
[0008]图5是示出使用图4的决策树划分的图3的二维空间的图；
[0009]图6是示出在应用图4的决策树之后图3的二维输入变量空间中的残留误差分布的图；
[0010]图7是示出根据一些示例实施例的适合于训练梯度提升决策树的方法的操作的流程图；
>[0011]图8是根据一些示例实施例的适用于梯度提升特征选择的数据库模式(schema)的框图；
[0012]图9是示出根据一些示例实施例的适合在训练梯度提升决策树中使用梯度提升特征选择的方法的操作的流程图；
[0013]图10是示出根据一些示例实施例的适合在训练梯度提升决策树中使用梯度提升特征选择的方法的操作的流程图；
[0014]图11是示出用于计算设备的软件架构的一个示例的框图；
[0015]图12是在其中可以执行指令以使机器执行本文所讨论的方法中的任何一个或多个的以计算机系统形式示例的机器的框图。
具体实施方式
[0016]示例方法和示例系统针对梯度提升特征选择。梯度提升决策树(GBDT)是一种能够以出色的准确性结果解决分类任务和回归任务的非常受欢迎的技术。梯度提升决策树依靠结合许多弱估计量(weak estimators)的集成方法(ensemble approach)。因此，可以通过将任务分解为较小的子问题然后再迭代解决从而解决分类任务或回归任务。
[0017]梯度提升决策树相继堆叠许多决策树，决策树在每一步都试图修复残留误差。因此，随着其他树添加到集合(ensemble)中，误差逐渐减小。每棵决策树在目标函数或损失函数的优化的指导下划分特征空间。在任何单独的决策树的创建期间，一旦满足终止条件(例如，最小数量的分区被添加到决策树、达到最大树深、达到最小残留误差或前述的任何合适的组合)，分区过程就停止。决策树中的叶节点被分配了用于分类或回归的分值，该分值使对应特征空间内训练数据的总误差最小。梯度提升决策树产生的最终分值仅是通过将决策树应用于输入向量而获得的各个分值的总和。在各种实施例中，决策树的数量范围从少于十棵到几千棵。梯度提升决策树误差可以作为训练数据集或单独的验证数据集的均方误差或对数损失来度量。
[0018]过度拟合是任何回归算法都有的问题，包括梯度提升决策树。当算法对数据过度拟合时，训练数据的误差度量变得非常小，甚至减少到零，但似乎矛盾的是，先前未见过数据的误差度量增加了。过度拟合是由于算法完全学习训练数据集本身而并未确定广泛地适用于未见过数据的模式而产生的。减少梯度提升决策树中的过度拟合的一种方法是从训练数据中删除对输出影响最小的输入值以降低模型的复杂性。例如，可以使用包括邮政编码、平方英尺、卧室数量和当前房主年龄的大量输入变量初始训练用于预测房屋价值的算法。由于房主年龄与房屋价值之间的相关性较低，因此，年龄实际上是特定条目的标识符，使得模型过度拟合，但无法提供有用的预测能力。在确定房主年龄对目标预测影响较小之后，将该字段从训练数据中删除，并重建梯度提升决策树。将重建的梯度提升决策树的误差与原始的梯度提升决策树的误差进行比较，如果改变很小，则丢弃原始的梯度提升决策树，而是使用新的梯度提升决策树。可以重复此过程，直到进一步删除输入变量对所得模型的误差产生实质性影响为止。
[0019]确定哪个输入变量具有低预测价值(predictive value)的一种方法是确定梯度提升决策树中的最新决策树中首次使用的输入变量。由于每个连续的决策树都试图减少聚合的先前树的误差，因此最新树对梯度提升决策树的误差的影响小于任何先前树的影响。所以，早期树中未使用的输入变量的预测价值比早期树中已使用的输入变量的预测价值低。因此，通过在创建决策树时在数据库中存储指示在每棵决策树中首次使用了哪些特征的数据，每个特征的预测价值的显式计算可以省去。
[0020]当使用这种识别要删除哪些低预测性的特征的方法时，不需要重新生成较早的树以生成新的梯度提升决策树。由于在较早的树中未使用已删除特征，因此这些树早就忽略了已删除特征。所以，仅需要重新生成已删除特征首次出现在其中的树(以及其后的树)，这与使用缩减的特征集从第一棵树开始重建梯度提升决策树的方法相比节省了计算时间。此外，由于梯度提升决策树的第一树集合被重复使用，梯度提升决策树的此部分的分值可被重复使用而无需重新计算，以便计算增加了新的树的下一模型的误差：这种增量误差计算利用了每棵决策树产生的分值的累加性质。
[0021]当综合考虑这些效果时，本文所述的一种或多种方法可以消除对训练或使用梯度提升决策树中所涉及到的某些工作量或资源的需要。一台或多台机器、数据库或网络使用的计算资源可能会被类似地减少。这种计算资源的示例包括处理器周期、网络流量、内存使用率、数据存储容量、功耗和冷却容量。
[0022]图1是示出根据一些示例实施例的适合于梯度提升特征选择的网络环境100的网络图。网络环境100包括基于网络的应用110、客户端设备160A和160B、以及网络190。基于网络的应用110由与数据库服务器130、存储数据140和梯度提升决策树150通信的应用服务器120提供。
[0023]应用服务器120访问数据140以经由网络接口180或应用接口170向客户端设备160A和客户端设备160B提供应用。应用服务器120、数据获取服务器125、数据库服务器130、梯度提升决策树训练服务器135、客户端设备160A和160B分别可以全部地或部分地在计算机系统中实现，如下参考图12所述。客户端设备160A和客户端设备160B可以被统称为多个客户端设备160或被一般地称为客户端设备160。
[0024]数据获取服务器125从一个或多个数据源接收数据。所接收的数据被提供给梯度提升决策树训练服务器135以训练一个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种方法，包括：由一个或多个处理器生成用于划分特征空间的第一决策树，所述第一决策树使用第一特征集，所述第一特征集是可用特征集的第一子集；由所述一个或多个处理器生成第二决策树，所述第二决策树对所述第一决策树进行改进以改善所述特征空间的划分，所述第二决策树使用所述第一特征集的零个或更多个特征和不包括在所述第一特征集中的第二特征集，所述第二特征集是所述可用特征集的第二子集；在数据库中存储将所述第一决策树与所述第一特征集相关联的第一数据；在所述数据库中存储将所述第二决策树与所述第二特征集相关联的第二数据；从所述可用特征集中删除所述第二特征集的特征；以及基于将所述第二决策树与包括已删除特征的所述第二特征集相关联的所述第二数据，生成第三决策树，所述第三决策树对所述第一决策树进行改进以改善所述特征空间的划分，所述第三决策树未使用所述已删除特征。2.根据权利要求1所述的方法，还包括：由所述一个或多个处理器生成第四决策树，所述第四决策树对所述第一决策树和所述第二决策树进行改进以改善所述特征空间的划分，所述第四决策树使用所述第一特征集的零个或更多个特征、所述第二特征集的零个或更多个特征、以及不包括在所述第一特征集或所述第二特征集中的第三特征集，所述第三特征集是所述可用特征集的第三子集；在所述数据库中存储将所述第四决策树与所述第三特征集相关联的第三数据；以及基于将所述第四决策树与不包括已删除特征的所述第三特征集相关联的所述第三数据，使用所述第二数据确定所述已删除特征在所述第二特征集中。3.根据权利要求1所述的方法，还包括：确定包括所述第一决策树和所述第二决策树的第一模型与包括所述第一决策树和所述第三决策树的第二模型之间的质量差；以及基于所述质量差和预定阈值，使用所述第一模型划分所述特征空间。4.根据权利要求3所述的方法，还包括：基于验证数据集确定所述第一模型的第一质量；基于所述验证数据集确定所述第二模型的第二质量；并且其中所述质量差的确定基于所述第一质量和所述第二质量。5.根据权利要求3所述的方法，其中，确定所述第一模型和所述第二模型之间的质量差包括：通过确定用于所述第一决策树的第一误差度量和用于所述第二决策树的第二误差度量，确定所述第一模型的质量；在所述数据库中存储所述第一误差度量；以及通过访问存储的用于所述第一决策树的所述第一误差度量并确定用于所述第三决策树的第三误差度量，确定所述第二模型的质量。6.根据权利要求1所述的方法，还包括：确定包括所述第一决策树和所述第二决策树的第一模型与包括所述第一决策树和所述第三决策树的第二模型之间的质量差；以及
基于所述质量差和预定阈值，从所述可用特征集中删除第二特征。7.根据权利要求1所述的方法，还包括：基于验证数据集确定所述第一决策树的第一质量；基于所述验证数据集，结合所述第二决策树确定所述第一决策树的第二质量；在所述数据库中存储将所述第一质量与所述第一决策树相关联的第三数据；以及在所述数据库中存储将所述第二质量与所述第二决策树相关联的第四数据。8.一种系统，包括：存储指令的存储器；以及一个或多个处理器，由所述指令配置以执行包括以下的操作：生成用于划分特征空间的第一决策树，所述第一决策树使用第一特征集，所述第一特征集是可用特征集的第一子集；生成第二决策树，所述第二决策树对所述第一决策树进行改进以改善所述特征空间的划分，所述第二决策树使用所述第一特征集的零个或更多个特征和不包括在所述第一特征集中的第二特征集，所述第二特征集是所述可用特征集的第二子集；在数据库中存储将所述第一决策树与所述第一特征集相关联的第一数据；在所述数据库中存储将所述第二决策树与所述第二特征集相关联的第二数据；从所述可用特征集中删除所述第二特征集的特征；以及基于将所述第二决策树与包括已删除特征的所述第二特征集相关联的所述第二数据，生成第三决策树，所述第三决策树对所述第一决策树进行改进以改善所述特征空间的划分，所述第三决策树未使用所述已删除特征。9.根据权利要求8所述的系统，其中所述操作还包括：生成第四决策树，所述第四决策树对所述第一决策树和所述第二决策树进行改进以改善所述特征空间的划分，所述第四决策树使用所述第一特征集的零个或更多个特征、所述第二特征集的零个或更多个特征、以及不包括在所述第一特征集或所述第二特征集中的第三特征集，所述第三特征集是所述可用特征集的第三子集；在所述数据库中存储将所述第四决策树与所述第三特征集相关联的第三数据；以及基于将所述第四决策树与不包括已删除特征的所述第三特征集相关联...

【专利技术属性】
技术研发人员：J多恩休，
申请(专利权)人：SAP欧洲公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人