当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于张量分解的随机森林优化方法及系统技术方案

技术编号:13008148 阅读:82 留言:0更新日期:2016-03-10 21:56
本发明专利技术适用于数据挖掘领域,提供了一种基于张量分解的随机森林优化方法,包括:读入训练数据集作为初始训练集;基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;基于所述随机森林训练集中的决策树模型构建张量模型;利用预设张量分解技术对所述张量模型进行分解;将分解后的张量进行调整以得到调整后的张量;在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及利用测试样本集对所述最优基分类器子集进行测试。本发明专利技术还提供了一种基于张量分解的随机森林优化系统。本发明专利技术可以获得具有整体性能最优的随机森林子集。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种基于张量分解的随机森林优化方法及系统
技术介绍
目前基于聚类的集成学习机优化方法需要衡量两个基分类器预测结果的相似性以及它们之间的多样性,这些衡量指标在集成学习机的优化过程中起着至关重要的作用,然而多样性在实际中难以衡量,且多样性与集成学习机预测性能间的有效联系也较难建立。随机森林因其能显著提高一个学习系统的泛化能力而得到机器学习界的广泛关注。运用随机抽样技术获取多个有多样性差异的样本,并在这些自助样本上训练多个决策树的集合。随着决策树数目的不断增加,随机森林的分类错误率逐渐下降。为了获取最优的分类性能,通常需要构造大量的决策树。但同时随机森林算法的时间复杂度和空间复杂度都会逐渐升高,而其预测效率明显下降,这对于在线学习更是一个严重的问题。因此,如何大幅度提高预测效率一直以来就是业界亟需改进的目标。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种基于张量分解的随机森林优化方法及系统,旨在解决现有技术中机器学习界预测效率较低的问题。本专利技术实施例是这样实现的,一种基于张量分解的随机森林优化方法,包括:读入训练数据集作为初始训练集;基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;基于所述随机森林训练集中的决策树模型构建张量模型;利用预设张量分解技术对所述张量模型进行分解;将分解后的张量进行调整以得到调整后的张量;在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及利用测试样本集对所述最优基分类器子集进行测试。优选的,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括HOSVD高阶张量分解技术。优选的,所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括:利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;统计各个分裂节点内包含的样本类标;利用多数投票机制确定本节点中每个样本的投票频数;以及将投票频数作为构建张量模型的基本元素进行构建张量模型。优选的,所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括:利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。优选的,所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集的步骤具体包括:将调整后的张量做tree-mode展开;按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;将剩余决策树子集通过Pruning样本集进行测试;以及选取具有整体最优的决策树子集作为最优基分类器子集。另一方面,本专利技术还提供一种基于张量分解的随机森林优化系统,包括:读取模块,用于读入训练数据集作为初始训练集;随机森林训练模块,用于基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;张量构建模块,用于基于所述随机森林训练集中的决策树模型构建张量模型;张量分解模块,用于利用预设张量分解技术对所述张量模型进行分解;张量调整模块,用于将分解后的张量进行调整以得到调整后的张量;最优子集选取模块,用于在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及测试模块,用于利用测试样本集对所述最优基分类器子集进行测试。优选的,所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包括HOSVD高阶张量分解技术。优选的,所述张量构建模块具体包括:节点访问子模块,用于利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;类标统计子模块,用于统计各个分裂节点内包含的样本类标;频数统计子模块,用于利用多数投票机制确定本节点中每个样本的投票频数;以及构建子模块,用于将投票频数作为构建张量模型的基本元素进行构建张量模型。优选的,所述张量调整模块具体包括:截断子模块,用于利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及计算子模块,用于将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。优选的,所述最优子集选取模块具体包括:张量展开子模块,用于将调整后的张量做tree-mode展开;统计删除子模块,用于按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;样本测试子模块,用于将剩余决策树子集通过Pruning样本集进行测试;以及最优选取子模块,用于选取具有整体最优的决策树子集作为最优基分类器子集。本专利技术利用张量分析技术把随机森林看作是几何结构,即看作是决策树、分裂属性、样本等多因素的综合结果,并可分离出各个子空间进而可以对各子空间进行截断微调,这种方式能大幅度提高机器学习界的预测效率。附图说明图1为本专利技术一实施方式中基于张量分解的随机森林优化方法流程图;图2为本专利技术一实施方式中图1所示步骤S13的详细子步骤流程图;图3为本专利技术一实施方式中图1所示步骤S15的详细子步骤流程图;图4为本专利技术一实施方式中图1所示步骤S16的详细子步骤流程图;图5为本专利技术一实施方式中基于张量分解的随机森林优化系统结构示意图;图6为本专利技术一实施方式中图5所示张量构建模块13的内部结构示意图;图7为本专利技术一实施方式中图5所示张量调整模块15的内部结构示意图;图8为本专利技术一实施方式中图5所示最优子集选取模块16的内部结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术具体实施方式提供了一种基于张量分解的随机森林优化方法,主要包括如下步骤:S11、读入训练数据集作为初始训练集;S12、基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;S13、基于所述随机森林训练集中的决策树模型构建张量模型;S14、利用预设张量分解技术对所述张量模型进行分解;S15、将分解后的张量进行调整以得到调整后的张量;S16、在调本文档来自技高网...
一种基于张量分解的随机森林优化方法及系统

【技术保护点】
一种基于张量分解的随机森林优化方法,其特征在于,所述方法包括:读入训练数据集作为初始训练集;基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模型;基于所述随机森林训练集中的决策树模型构建张量模型;利用预设张量分解技术对所述张量模型进行分解;将分解后的张量进行调整以得到调整后的张量;在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集;以及利用测试样本集对所述最优基分类器子集进行测试。

【技术特征摘要】
1.一种基于张量分解的随机森林优化方法,其特征在于,所述方法包括:
读入训练数据集作为初始训练集;
基于所述初始训练集采用预设随机抽样方法获取新的训练集以形成随机森
林训练集,其中,所述随机森林训练集包括采用随机子空间技术训练决策树模
型;
基于所述随机森林训练集中的决策树模型构建张量模型;
利用预设张量分解技术对所述张量模型进行分解;
将分解后的张量进行调整以得到调整后的张量;
在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子
集;以及
利用测试样本集对所述最优基分类器子集进行测试。
2.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,
所述预设随机抽样方法包括Bootstrap随机抽样方法,所述预设张量分解技术包
括HOSVD高阶张量分解技术。
3.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,
所述基于所述随机森林训练集中的决策树模型构建张量模型的步骤具体包括:
利用宽度优先遍历法逐个访问所述决策树模型中决策树的分裂节点;
统计各个分裂节点内包含的样本类标;
利用多数投票机制确定本节点中每个样本的投票频数;以及
将投票频数作为构建张量模型的基本元素进行构建张量模型。
4.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,
所述将分解后的张量进行调整以得到调整后的张量的步骤具体包括:
利用设置截断参数对张量分解得到的奇异值矩阵进行截断调整;以及
将截断后的奇异值矩阵和核心张量重新计算得到调整后的张量。
5.如权利要求1所述的基于张量分解的随机森林优化方法,其特征在于,

\t所述在调整后的张量中选取具有整体最优的决策树子集作为最优基分类器子集
的步骤具体包括:
将调整后的张量做tree-mode展开;
按照每个决策树对应的元素进行统计,删除小于预设阈值的决策树;
将剩余决策树子集通过Pruning样本集进行测试;以及
选取具有整体最优的决策树子集作为最优基分类器子集。
6.一种基于张量分解的随机森林优化系统,其特征在于,所述基于张量分
解的随机森林优化系统包括:
读取模块,用于读入训练数据集...

【专利技术属性】
技术研发人员:李俊杰
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1