一种基于栈式降噪自编码神经网络的数据约简方法技术

技术编号:20820887 阅读:36 留言:0更新日期:2019-04-10 06:12
本发明专利技术公开了一种基于栈式降噪自编码神经网络的数据约简方法,其特征在于,栈式降噪自编码神经网络的约简模型构建步骤如下:步骤1:将前一个DAE的输出,作为下一个DAE的输入,以此来达到层层编码的目的;步骤2:用

【技术实现步骤摘要】
一种基于栈式降噪自编码神经网络的数据约简方法
本专利技术涉及数据处理
,特别涉及一种基于栈式降噪自编码神经网络的数据约简方法。
技术介绍
自编码器(Autoencoder,AE)是由Hinton于2006年提出的,其结构分为输入层,输出层,及其隐含层。输入层和输出层神经元数量相同,隐含层神经元数量较少,其中输入层和隐含层构成编码网络部分,AE在编码网络部分压缩数据。目前,随着数据采集、存储技术的快速发展,数据冗余的问题越来越严重,它不仅极大地浪费存储空间,也会显著降低基于数据的建模。针对海量数据集的维度高、冗余度大,指标间关联性较强的特点,为提高对数据处理能力和数据可用性,需要提出一种新型方法对原始数据进行预处理。
技术实现思路
专利技术的目的在于提供一种基于栈式降噪自编码神经网络的数据约简方法,本专利技术采用降噪自编码网络的改进方法-栈式降噪自编码神经网络算法对样本特征集进行降维,以降低各类模型的复杂度,提高及机器学习应用中分类器的分类效果,减少各类学习算法的运算成本,并对该方法约简的可行性和高效性进行了验证,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于栈式降噪自编码神经网络的数据约简方法,通过qD,原始数据X被扰乱成,并将此带有噪声的数据作为自编码器的输入,通过fθ,对隐藏层各个神经元的激活值进行计算,栈式降噪自编码神经网络的约简模型构建步骤如下:步骤1:将前一个DAE的输出,作为下一个DAE的输入,以此来达到层层编码的目的;步骤2:用x0来表示原始的输入样本,并用xi来代表第i层的DAE的编码情况,可以得出每一层的DAE的编码情况,其表示方式如下:xi=fθ(xi-1)i=1,2,3,…。步骤3:进行逐层贪婪训练及微调,其中,逐层贪婪训练过程通过最小化原始输入数据与重构编码的差异训练权重,得到初始参数,微调过程通过BP算法调整初始参数的交叉熵函数以保证重构误差的最小化,以得到最优重构效果的目的。进一步地,训练由多层DAE构成的SDAE时,需要采用逐层贪婪的原则,对每一层DAE进行单独训练得到初始化参数,并在保证重构误差最小化的基础上对参数进行微调。进一步地,其包括如下步骤:先利用输入的样本特征训练SDAE的第一层,即第一个DAE,并通过微调得到相应的参数,然后将该DAE的隐含层输出作为第二个DAE的输入,训练并微调得到第二个DAE的参数,依次下去,便可以得到基于SDAE的约简模型。进一步地,在整个训练过程中,训练下一个DAE时要保证上一个DAE的参数不变。进一步地,其还包括由输入层、隐含层以及输出层组成的垃圾网页判别指标约简模型的网络结构,其每层DAE的结构分别为219-150、150-100、100-50、50-5,其中,设置输入层的神经元个数为219,设置输出层的神经元个数为5,同时,为达到约简的目的,设置每层神经元的个数呈现150,100,50的逐层递减趋势。进一步地,约简模型中,每层DAE的隐含层输出分别为下一层DAE的输入,通过逐层间的学习,使得下一层DAE的神经元均能捕获前一层DAE的神经元的高度相关性,并可准确描述前一层DAE的神经元的非线性关系,使得最终的输出编码能完全涵盖高维数据的信息。与现有技术相比,本专利技术的有益效果是:本专利技术提出的基于栈式降噪自编码神经网络的数据约简方法,首先对数据集进行全面详细地分析,对样本数据集进行量化、标准化及平衡化处理,采用降噪自编码网络的改进方法-栈式降噪自编码神经网络算法对样本特征集进行降维,以降低各类模型的复杂度,提高及机器学习应用中分类器的分类效果,减少各类学习算法的运算成本,并对该方法约简的可行性和高效性进行了验证。附图说明图1为本专利技术的DAE的原理图;图2为本专利技术的第一个DAE的网络结构图;图3为本专利技术的第二个DAE的网络结构图;图4为本专利技术的基于SDAE的约简模型图;图5为本专利技术的垃圾网页判别指标约简模型的网络结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于栈式降噪自编码神经网络的数据约简方法,在保留AE的特点的基础上,降噪自编码器(DenoisingAutoencoder,DAE)使AE从含有噪声的输入中进行学习,通过在输入数据中加入某些噪声,来提高系统的鲁棒性,DAE的原理图如图1所示,通过qD,原始数据X被扰乱成,并将此带有噪声的数据作为自编码器的输入,通过fθ,对隐藏层各个神经元的激活值进行计算,栈式降噪自编码神经网络的约简模型构建步骤如下:步骤1:在栈式降噪自编码神经网络(StackedDenoisingAutoencoderNeuralNetworks,SDAE)模型中,将前一个DAE的输出,作为下一个DAE的输入,以此来达到层层编码的目的;步骤2:用x0来表示原始的输入样本,并用xi来代表第i层的DAE的编码情况,可以得出每一层的DAE的编码情况,其表示方式如下:xi=fθ(xi-1)i=1,2,3,…。步骤3:在构建SDAE约简模型的过程中进行逐层贪婪训练及微调,其中,逐层贪婪训练过程通过最小化原始输入数据与重构编码的差异训练权重,得到初始参数,微调过程通过BP算法调整初始参数的交叉熵函数以保证重构误差的最小化,以得到最优重构效果的目的。训练由多层DAE构成的SDAE时,需要采用逐层贪婪的原则,对每一层DAE进行单独训练得到初始化参数,并在保证重构误差最小化的基础上对参数进行微调。即先利用输入的样本特征训练SDAE的第一层,即第一个DAE,过程如图2,并通过微调得到相应的参数,然后将该DAE的隐含层输出作为第二个DAE的输入,过程如图3,训练并微调得到第二个DAE的参数,依次下去,便可以得到基于SDAE的约简模型,过程如图4。在整个训练过程中,训练下一个DAE时要保证上一个DAE的参数不变。针对垃圾网页判别指标样本维数为219维,本专利技术选取具有4层DAE的栈式降噪自编码神经网络结构,其包括输入层、隐含层以及输出层,其每层DAE的结构分别为219-150、150-100、100-50、50-5,其中,设置输入层的神经元个数为219,设置输出层的神经元个数为5,同时,为达到约简的目的,设置每层神经元的个数呈现150,100,50的逐层递减趋势。约简模型中,每层DAE的隐含层输出分别为下一层DAE的输入,通过逐层间的学习,使得下一层DAE的神经元均能捕获前一层DAE的神经元的高度相关性,并可准确描述前一层DAE的神经元的非线性关系,使得最终的输出编码能完全涵盖高维数据的信息,该垃圾网页判别指标约简模型的网络结构如下图5所示。通过以上的指标约简模型的建立进行指标约简实验结果及分析,任意抽选了120个样本,用预处理方法,对这120条实验样本进行了预处理,并将其中3/4的实验样本作为训练集,1/4的实验样本作为测试集。用所得到的SDAE模型将219维的垃圾网页判别指标样本约简为5维的特征数据,分别选取一条训练样本和一条测试样本进行约简实验,经过约简后得到的5本文档来自技高网...

【技术保护点】
1.一种基于栈式降噪自编码神经网络的数据约简方法,其特征在于,通过qD,原始数据X被扰乱成,并将此带有噪声的数据作为自编码器的输入,通过fθ,对隐藏层各个神经元的激活值进行计算,栈式降噪自编码神经网络的约简模型构建步骤如下:步骤1:将前一个DAE的输出,作为下一个DAE的输入,以此来达到层层编码的目的;步骤2:用x0来表示原始的输入样本,并用xi来代表第i层的DAE的编码情况,可以得出每一层的DAE的编码情况,其表示方式如下:xi=fθ(xi‑1) i=1,2,3,…。步骤3:进行逐层贪婪训练及微调,其中,逐层贪婪训练过程通过最小化原始输入数据与重构编码的差异训练权重,得到初始参数,微调过程通过BP算法调整初始参数的交叉熵函数以保证重构误差的最小化,以得到最优重构效果的目的。

【技术特征摘要】
1.一种基于栈式降噪自编码神经网络的数据约简方法,其特征在于,通过qD,原始数据X被扰乱成,并将此带有噪声的数据作为自编码器的输入,通过fθ,对隐藏层各个神经元的激活值进行计算,栈式降噪自编码神经网络的约简模型构建步骤如下:步骤1:将前一个DAE的输出,作为下一个DAE的输入,以此来达到层层编码的目的;步骤2:用x0来表示原始的输入样本,并用xi来代表第i层的DAE的编码情况,可以得出每一层的DAE的编码情况,其表示方式如下:xi=fθ(xi-1)i=1,2,3,…。步骤3:进行逐层贪婪训练及微调,其中,逐层贪婪训练过程通过最小化原始输入数据与重构编码的差异训练权重,得到初始参数,微调过程通过BP算法调整初始参数的交叉熵函数以保证重构误差的最小化,以得到最优重构效果的目的。2.根据权利要求1所述的一种基于栈式降噪自编码神经网络的数据约简方法,其特征在于,训练由多层DAE构成的SDAE时,需要采用逐层贪婪的原则,对每一层DAE进行单独训练得到初始化参数,并在保证重构误差最小化的基础上对参数进行微调。3.根据权利要求2所述的一种基于栈式降噪自编码神经网络的数据约简方法,其特征在于,其包括如下步骤:先利用输入的样本特征训练SD...

【专利技术属性】
技术研发人员:肖子洋邱日轩付晨李路明褚红亮
申请(专利权)人:国网江西省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1