深度森林模型开发和训练制造技术

技术编号：30508629 阅读：17 留言：0更新日期：2021-10-27 22:48

用于分析数据的深度森林模型的自动开发和训练包括，使用数据生长决策树的随机森林，确定森林的袋外(OOB)预测，将所述OOB预测附加到数据集，以及使用包括所附加的OOB预测的数据集来生长另外的森林，并且合并该另外的森林的输出，然后利用该模型对训练数据集之外的数据进行分类。据进行分类。据进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】深度森林模型开发和训练

技术介绍

[0001]本公开一般地涉及用于开发和训练用于分析数据的模型的系统和方法。本公开尤其涉及使用深度随机森林自动开发和训练模型以分析数据的系统。
[0002]深度学习至少部分由于深度神经网络的成功应用而众所周知，特别是在涉及图像和语音信息的任务中。深度神经网络也具有缺陷。深度神经网络可能需要大量的数据用于训练，这使得深度神经网络不太适合于小规模数据。深度神经网络可以是包括太多超参数的非常复杂的模型。可能需要仔细地调整这些参数以达到期望的学习准确度，使得深度神经网络的训练更像技术，而不是科学或工程学。
[0003]Zhou等人提出了一种新的深度学习方法gcForest(多粒度级联森林)[Z.
‑
H.Zhou和F.Ji.Deep forest：towards an alternative to deep neural networks(深度森林：朝向深度神经网络的替代方案).arXiv：1702.08835v2，2017]。该方法试图通过随机森林的级联结构来实现关键的深度学习想法，即表示学习，其中级联的每个层接收由前一层创建的特征信息，并且将其结果输出到下一层。gcForest可以实现与深度神经网络有竞争力的性能，但是具有较少的上述缺陷。
[0004]随机森林由Breiman在2001年提出[L.Breiman.Random forests(随机森林).Machine Learning(机器学习)，45(1)：5
‑
32，2001]。它是决策树的集合。当在集...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于开发和训练用于分析数据的模型的计算机实现的方法，该方法包括：通过以下步骤构造模型：由一个或多个计算机处理器从数据集生长决策树的随机森林；由一个或多个计算机处理器确定对于所述随机森林的袋外(OOB)预测；由一个或多个计算机处理器将所述袋外预测附加到所述数据集；由一个或多个计算机处理器使用具有附加的OOB预测的数据集来生长另外的随机森林；并且由一个或多个计算机处理器用合并器合并所述另外的随机森林的输出。2.根据权利要求1所述的方法，其中，每个随机森林都是从选自下组的数据生长的，该组由以下各项组成：数字、文本、音频、视频、图像数据位置、语音、音乐、娱乐、医疗保健、财务信息、车辆、物流、以及销售数据。3.根据权利要求1所述的方法，其中，使用数据集来生长所述决策树的随机森林包括：使用自举样本来生长决策树，以生长每个树，所述自举样本是有替换地取自所述数据集。4.根据权利要求1所述的方法，进一步包括：确定每个随机森林的OOB精确度，并且添加随机森林，直到所述OOB精确度没有显著提高。5.根据权利要求1所述的方法，其中，所述合并器包括选自由随机森林和梯度提升结构组成的组中的结构。6.根据权利要求1所述的方法，其中，所述模型包括层序列，每层包括单个随机森林。7.一种用于开发和训练用于分析数据的模型的计算机程序产品，所述计算机程序产品包括一个或多个计算机可读存储设备和存储在所述一个或多个计算机可读存储设备上的程序指令，所述程序指令包括：编程指令，当由一个或多个计算机处理器执行时，所述编程指令使所述处理器执行如权利要求1至6中任一项所述的方法的步骤。8.一种用于开发和训练用于分析数据的模型的计算机系统，所述计算机...

【专利技术属性】
技术研发人员：许静，王锐，马小明，杨继辉，张雪英，J，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人