一种基于张量分解的随机森林优化方法及系统技术方案

技术编号：13008148 阅读：82 留言：0更新日期：2016-03-10 21:56

本发明专利技术适用于数据挖掘领域，提供了一种基于张量分解的随机森林优化方法，包括：读入训练数据集作为初始训练集；基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；基于所述随机森林训练集中的决策树模型构建张量模型；利用预设张量分解技术对所述张量模型进行分解；将分解后的张量进行调整以得到调整后的张量；在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及利用测试样本集对所述最优基分类器子集进行测试。本发明专利技术还提供了一种基于张量分解的随机森林优化系统。本发明专利技术可以获得具有整体性能最优的随机森林子集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，尤其涉及一种基于张量分解的随机森林优化方法及系统。
技术介绍
目前基于聚类的集成学习机优化方法需要衡量两个基分类器预测结果的相似性以及它们之间的多样性，这些衡量指标在集成学习机的优化过程中起着至关重要的作用，然而多样性在实际中难以衡量，且多样性与集成学习机预测性能间的有效联系也较难建立。随机森林因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关注。运用随机抽样技术获取多个有多样性差异的样本，并在这些自助样本上训练多个决策树的集合。随着决策树数目的不断增加，随机森林的分类错误率逐渐下降。为了获取最优的分类性能，通常需要构造大量的决策树。但同时随机森林算法的时间复杂度和空间复杂度都会逐渐升高，而其预测效率明显下降，这对于在线学习更是一个严重的问题。因此，如何大幅度提高预测效率一直以来就是业界亟需改进的目标。
技术实现思路
有鉴于此，本专利技术实施例的目的在于提供一种基于张量分解的随机森林优化方法及系统，旨在解决现有技术中机器学习界预测效率较低的问题。本专利技术实施例是这样实现的，一种基于张量分解的随机森林优化方法，包括：读入训练数据集作为初始训练集；基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；基于所述随机森林训练集中的决策树模型构建张量模...
一种基于张量分解的随机森林优化方法及系统

【技术保护点】
一种基于张量分解的随机森林优化方法，其特征在于，所述方法包括：读入训练数据集作为初始训练集；基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模型；基于所述随机森林训练集中的决策树模型构建张量模型；利用预设张量分解技术对所述张量模型进行分解；将分解后的张量进行调整以得到调整后的张量；在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集；以及利用测试样本集对所述最优基分类器子集进行测试。

【技术特征摘要】
1.一种基于张量分解的随机森林优化方法，其特征在于，所述方法包括：
读入训练数据集作为初始训练集；
基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森
林训练集，其中，所述随机森林训练集包括采用随机子空间技术训练决策树模
型；
基于所述随机森林训练集中的决策树模型构建张量模型；
利用预设张量分解技术对所述张量模型进行分解；
将分解后的张量进行调整以得到调整后的张量；
在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子
集；以及
利用测试样本集对所述最优基分类器子集进行测试。
2.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，
所述预设随机抽样方法包括Bootstrap随机抽样方法，所述预设张量分解技术包
括HOSVD高阶张量分解技术。
3.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，
所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括：
利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点；
统计各个分裂节点内包含的样本类标；
利用多数投票机制确定本节点中每个样本的投票频数；以及
将投票频数作为构建张量模型的基本元素进行构建张量模型。
4.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，
所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括：
利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整；以及
将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
5.如权利要求1所述的基于张量分解的随机森林优化方法，其特征在于，

\t所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集
的步骤具体包括：
将调整后的张量做tree-mode展开；
按照每个决策树对应的元素进行统计，删除小于预设阈值的决策树；
将剩余决策树子集通过Pruning样本集进行测试；以及
选取具有整体最优的决策树子集作为最优基分类器子集。
6.一种基于张量分解的随机森林优化系统，其特征在于，所述基于张量分
解的随机森林优化系统包括：
读取模块，用于读入训练数据集...

【专利技术属性】
技术研发人员：李俊杰，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人