当前位置: 首页 > 专利查询>南京大学专利>正文

一种森林压缩编码器的实现方法技术

技术编号:16878249 阅读:66 留言:0更新日期:2017-12-23 15:04
本发明专利技术公开了一种森林压缩编码器的实现方法,该方法基于决策树集成学习器实现,通过将输入放入已训练好的决策树集成学习器(随机森林或完全随机森林),获取每棵树对应的叶子结点的标记数,从而获得编码;对已编码好的信号,通过反向回溯各棵决策树的决策路径,计算最大兼容规则,从而进行解码。森林压缩编码器一方面可以达到甚至超越深度神经网络自编码器的性能;另一方面,该装置可快速压缩输入信号,将压缩过的编码信号进行解码后,重构误差小,并且不需要额外的图形加速卡进行辅助运算以及容易确定参数的取值范围。

The implementation of a forest compression coder

The invention discloses a method for realizing forest compression encoder, the method based on decision tree ensemble learning is implemented through the input in the decision tree trained integrated learning device (random forest or completely random forest), for each tree leaf node corresponding to the standard notation, which has the signal encoding; good decision path encoding, backtracking the decision tree through the reverse, the calculation of the maximum compatibility rules, so as to decode. A forest compression encoder can achieve performance even beyond the depth of the neural network from the encoder; on the other hand, the device can quickly compress the input signal, the signal compression encoding decoding and reconstruction error is small, and does not require additional graphics cards for auxiliary operation and easy to determine the parameter range.

【技术实现步骤摘要】
一种森林压缩编码器的实现方法
本专利技术涉及一种基于决策树集成的高效机器学习自编码器实现方法,称为森林压缩编码器,属于大规模数据下的人工智能与模式识别任务

技术介绍
自编码器是一类重要的深度学习模型,在图像理解,语音识别与自然语言处理等方面取得了广泛应用。其主要应用场景包括特征学习、降维、以及无监督学习等方面。现有的自编码器均基于神经网络实现,具有训练时间长、参数难确定,以及需要昂贵硬件进行辅助计算等不足。基于此,本专利技术提出了一种以决策树集成为基础的森林压缩编码器。该森林压缩编码器一方面可以达到甚至超越深度神经网络自编码器的性能;另一方面,该装置可快速压缩输入信号,将压缩过的编码信号进行解码后,重构误差小,并且不需要额外的图形加速卡进行辅助运算以及容易确定参数的取值范围。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种森林压缩编码器的实现方法。技术方案:一种森林压缩编码器的实现方法,基于决策树集成学习器实现,通过将输入放入已训练好的决策树集成学习器(随机森林或完全随机森林),获取每棵树对应的叶子结点的标记数,从而获得编码;对已编码好的信号,通过反向回溯各棵决策树的决策路径,计算最大兼容规则,从而进行解码。森林压缩编码器针对训练数据,进行监督或无监督的决策树集成学习。其流程主要包括两个部分:(1)编码过程:将输入样本放进决策树集成器,获得每颗决策树对应的叶子结点序号,以该编号作为属于样本的编码输出。(2)解码过程:通过编码确定每颗决策树对应的决策路径,并分别计算每个决策路径所对应的二元决策规则序列。将所有决策规则序列进行集成,获得最大兼容规则序列(MCR),最后在该最大兼容规则序列中进行采样估计,获得解码结果。附图说明图1是本专利技术编码器的编码过程的流程图;图2是本专利技术编码器的最大兼容决策规则序列流程图;图3是本专利技术编码器的解码过程的流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术编码器的实现方法,基于训练好的决策树集成模型,对输入数据压缩编码,与此同时,对于同一装置所处理过的编码结果,进行解码还原。编码前的决策树建立过程,可以不需要标签进行无监督训练,亦可进行有监督的训练。下面分别介绍该装置的编码过程和解码过程。森林压缩编码器的编码过程该装置的编码过程由如下两个子方面构成:1、前向传递。针对已训练好的决策树集成器,将样本输入后,记录样本落入的每棵树的叶子结点位置,并记录叶子节点在对应的决策树中的整数序号。2、编码。将叶子结点的整数序号以向量返回,作为装置的编码结果。例如,对于具有T颗决策树的集成模型,会产生T个对应的叶子结点序号,将此T个叶子结点序号,合并为T维向量,作为输出编码结果,并记为xencoding。基于此,森林压缩编码器的编码过程如图1所示。对于给定的由T棵树组成的决策树集成,将待编码的输入样本x传入该决策树集成,记录样本落入的T个叶子结点的整数编号,将该T个整数编号作为输出编码。由于定位叶子结点仅需要扫描数据样本1遍,时间开销小,训练速度快。此外由于集成学习模型内在的鲁棒性,容易确定参数的取值范围。森林压缩编码器的解码过程该装置的解码过程由如下三个子方面构成:1、计算决策路径所对应的决策序列。首先,针对一个T维编码输入xencoding,根据编码的过程,可分别回溯确定对应的T个决策路径。根据每个决策路径,获得相应的二元决策序列。具体而言,每个二元决策序列由Di个决策组成,i=1,2,3…T。Di中包含的二元决策数目,等于对应的决策路径的长度。对于决策路径上的节点,可显式地表达为I(xt<Tt),t=1,2,3,…,d。这里d为输入样本的维度,xt是输入样本x在第t维上的值,Tt是该节点所学习到的决策值。I()是逻辑指示函数,当条件满足时,返回1,反之返回0。此|Di|个二元决策判别式,构成了第i项的二元决策序列。2、计算最大兼容决策规则序列的过程由图2所示。计算最大兼容决策规则序列(MCR)。将T个决策路径所确定的决策序列进行逻辑合并,获得最大兼容决策规则序列(MCR)。该最大兼容决策序列一方面兼容前述T个决策序列,同时已达到最大兼容,不可进一步扩充。换言之,最大兼容决策规则序列,是对原始输入样本每一个属性的取值估计。对于连续变量,该规则给出了区间估计;对于离散变量,该规则给出了明确的取值。3、计算点估计结果。通过最大兼容决策规则序列,确定了样本属性的取值范围。为了最终定位属性的取值,在该规则序列所确定的取值范围内进行点估计。具体而言,通过统计学中的最大似然估计计算每个取值的概率,返回概率最大的取值作为点估计的结果。经过点估计计算,返回解码结果xdecoding。其他采样方法诸如取均值/最大/最小值亦可。基于1,2,3点子步骤,森林压缩编码器的解码过程如图3所示。具体而言,对于已被由T颗决策树集成模型进行编码后的输入编码,首先根据子步骤1,根据编码和森林本身结构,计算对应的T个决策序列。其次根据子步骤2,计算将T个决策序列所对应的最大兼容决策规则序列(MCR),最后根据子步骤3,针对MCR进行统计采样,获得解码结果并输出。由于最大兼容规则序列和点估计有效剔除了不可行的取值范围,样本重构误差小。此外,上述过程的计算不依赖于硬件,对计算设备的适用范围广。本文档来自技高网...
一种森林压缩编码器的实现方法

【技术保护点】
一种森林压缩编码器的实现方法,其特征在于:基于决策树集成学习器实现,通过将输入放入已训练好的决策树集成学习器,获取每棵树对应的叶子结点的标记数,从而获得编码;对已编码好的信号,通过反向回溯各棵决策树的决策路径,计算最大兼容规则,从而进行解码。

【技术特征摘要】
1.一种森林压缩编码器的实现方法,其特征在于:基于决策树集成学习器实现,通过将输入放入已训练好的决策树集成学习器,获取每棵树对应的叶子结点的标记数,从而获得编码;对已编码好的信号,通过反向回溯各棵决策树的决策路径,计算最大兼容规则,从而进行解码。2.如权利要求1所述的森林压缩编码器的实现方法,其特征在于:进行监督或无监督的决策树集成学习。3.如权利要求1所述的森林压缩编码器的实现方法,其特征在于:森林压缩编码器的编码过程为:将输入样本放进决策树集成器,获得每颗决策树对应的叶子结点序号,以该编号作为属于样本的编码输出。4.如权利要求1所述的森林压缩编码器的实现方法,其特征在于:森林压缩编码器的解码过程为:通过编码确定每颗决策树对应的决策路径,并分别计算每个决策路径所对应的二元决策规则序列;将所有决策规则序列进...

【专利技术属性】
技术研发人员:周志华冯霁
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1