当前位置: 首页 > 专利查询>南京大学专利>正文

一种多尺度扫描级联森林学习机的训练方法技术

技术编号:15691552 阅读:181 留言:0更新日期:2017-06-24 04:51
本发明专利技术公开一种多尺度扫描级联森林学习机的训练方法,包括如下步骤:(1)通过级联扫描的方式,对训练集进行预处理。(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量。(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练。(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。本发明专利技术对高维时空数据进行扫描和预处理,使得该学习机可以感知输入数据的结构性,以达到精准识别的目的。

Training method of multi-scale scanning cascade forest learning machine

The invention discloses a training method of a multi-scale scanning cascade forest learning machine, which comprises the following steps: (1) pretreatment of a training set by means of cascade scanning. (2) the pre processed data is trained by random forests integrated with multiple decision trees, and the classification vectors of each sample are obtained. (3) combine all the classification vectors obtained in the preceding way into a single input, and perform cascading training. (4) the final results were the average rank of joint training integration, the prediction results obtained the final recognition. The invention scans and processes the high dimensional spatiotemporal data, so that the learning machine can sense the structure of the input data so as to achieve the purpose of accurate identification.

【技术实现步骤摘要】
一种多尺度扫描级联森林学习机的训练方法
本专利技术涉及一种多尺度扫描级联森林学习机的训练方法,用于大规模数据下的人工智能与模式识别任务。
技术介绍
近年来,深度神经网络技术在人工智能领域的语音,图像,文本识别方面取得了广泛成功,但存在几点不足:1)深度神经网络对训练数据的需求巨大,在中小规模数据上表现不佳。2)深度神经网络需要昂贵的并行计算芯片(诸如图形加速卡),以完成运算。3)深度神经网络技术的超参数极其复杂,使用者需要耗费巨大的时间进行参数调整,以获得满意的性能表现。基于以上不足,本专利技术提出了一种以随机森林为基础的级联森林学习机的训练方法,在辅以多尺度扫描的独特处理技术下,该学习机一方面可以达到同深度神经网络相媲美的性能表现,另一方面,该装置几乎不需要对超参数进行人工调整,在中小数据下同样具有优异的表现,并且不需要额外的图形加速卡进行辅助运算。
技术实现思路
专利技术目的:针对深度神经网络在大规模数据下识别任务的不足,本专利技术提供一种多尺度扫描级联森林学习机的训练方法。基于随机森林学习器,通过一种级联的机制进行级联训练,以达到特征学习的目的,与此同时,针对时序数据和具有空间关联的数据,本专利技术提出了一种多尺度扫描的方法,对高维时空数据进行扫描和预处理,使得该学习机可以感知输入数据的结构性,以达到精准识别的目的。技术方案:一种多尺度扫描级联森林学习机的训练方法,通过以下流程运作:(1)通过级联扫描的方式,对训练集进行预处理。(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量。(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练。(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。附图说明图1是本专利技术级联训练的流程图;图2是本专利技术的细粒度扫描的流程图;图3是本专利技术的训练流程图;图4是本专利技术的使用流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种多尺度扫描级联森林学习机的目的是对输入数据进行分类,在获得已标记数据(训练集)的前提下,进行自动学习,并具备识别新数据的能力。为了对输入数据进行识别分类任务,需要先对已标注好的数据集合(按照惯例,这里称作训练集)进行自动学习,训练完毕后,该装置即具备了识别新数据的能力。本说明书将分别介绍该装置的训练过程和使用过程。I.多尺度扫描级联森林学习机的训练学习过程该装置的训练过程由如下两个子方面构成:1.级联训练(如图1)。该装置提出了一种新的级联训练过程,具体流程如下。首先,对训练输入数据,分别拟合N个基于决策树的集成森林(图示为4个),这里N可以是任何正整数。训练完毕后,N个森林可以产生由d*N个元素的向量,其中d是训练集中的类别数目(图中d为3)。将这d*N个元素连同上一层输入一起,形成了(K+d*N)维的向量,这将是下一层级联训练的输入。为了防止过拟合,级连训练的层数L,将以k折交叉验证进行。2.细粒度扫描训练。针对高维数据或时序/图像类数据,该装置提出了一种新的多尺度扫描的方式,具体过程如图2所示。给定一个输入数据,通过细粒度的扫描窗格对数据进行预处理,将会生成一组维度较低的,具有局部结构特征的数据,然后针对预处理后的数据,分别拟合数个以决策树为基础的集成器,并将预测类别向量的结果连接起来,作为级联学习的输入。(具体训练流程见图2)基于此,多尺度扫描级联森林学习机的训练过程如图3所示。多尺度级联森林学习机结合了前述1,2两个步骤,将其统一为一个整体流程。具体如下:首先,对输入数据进行多尺度的细粒度扫描。不同的尺度wi将有尺度集合W预先定义,每个扫描尺度所对应的森林数目为N。其次,将多尺度扫描的结果作为级联训练的输入,按照步骤1的方式进行级联训练,每次级联的集成森林数目为M。级连训练的层数L,由其在独立验证集上的性能表现进行自动确定。训练完毕后,所有集成森林的参数及级联层数,将会作为训练过程的输出,供该装置进行预测识别任务(具体训练流程如图3)II.多尺度扫描级联森林学习机的使用过程多尺度扫描级联森林学习机在经历了前述训练过程后,即可投入使用,换言之,该装置即可对输入数据进行自动识别分类。具体使用过程如下(如图4):1.通过读取细粒度扫描窗口集合W,分别处理输入数据,并获得对应森林集成模型的分类向量,将其拼接为一个整体。2.将前述步骤产生的结果,作为级联预测的输入,分别获得每级级联中M个森林的分类向量,并同步骤1中的结果进行拼接,作为下一级联的输入数据。该步骤重复L次,其中,L为级联层数。将最后一层的级联森林输出进行平均,并选择最大预测作为输出。本文档来自技高网...
一种多尺度扫描级联森林学习机的训练方法

【技术保护点】
一种多尺度扫描级联森林学习机的训练方法,其特征在于,包括如下步骤:(1)通过级联扫描的方式,对训练集进行预处理;(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量;(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练;(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。

【技术特征摘要】
1.一种多尺度扫描级联森林学习机的训练方法,其特征在于,包括如下步骤:(1)通过级联扫描的方式,对训练集进行预处理;(2)将预处理后的数据,分别通过多组决策树集成下的随机...

【专利技术属性】
技术研发人员:周志华冯霁
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1