基于深度学习的多层自动编码方法及系统技术方案

技术编号:15792548 阅读:85 留言:0更新日期:2017-07-10 01:05
本发明专利技术涉及一种基于深度学习的多层自动编码方法及系统,结合深度学习原理与张量算法,采用张量的形式对原始数据进行表达,能够在不破坏原始数据结构的前提下,充分挖掘原有信息,并通过多层学习,获得更本质的抽象特征,从而克服采用向量表达的局限性,能较大程度上保留原始数据的结构信息,并且获得更为鲁棒的特征提取与模式学习,利于对原始数据本质的体现,有利于进行后续的模式分类。

【技术实现步骤摘要】
基于深度学习的多层自动编码方法及系统
本专利技术涉及深度学习领域,尤其涉及一种基于深度学习的多层自动编码方法及系统。
技术介绍
深度学习(DeepLearning)是机器学习研究中的一个新的领域,其目的在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,建立多层架构对于特征进行逐层抽象。常规的流程有预处理,特征提取,特征选择,识别与预测等等。目前应用于图像识别、语音识别、自然语言理解、天气预测、基因表达等领域。自动编码器(Autoencoder)是深度学习领域中一种压缩编码器,自动编码机将Xo(取值范围为[0,1])为原始数据,首先将原始数据映射到一个隐层表示为X,此表示为维度压缩后的对于原始数据重构的结果,然后利用相似的变换重新映射回与X0同样规模的重建X’,利用重建结果与原始数据的差值更新权值参数,从而得到更新后原始数据重新编码的网络输出X^1,再通过多次迭代获得X^N模式识别。目前,自动编码器对于原始数据的表达主要采取向量形式,而采用向量表达具有很大的局限性,不能较大程度上保留原始数据的空间信息,不利于对原始数据本质的体现,不能充分挖掘原始数据的原有信息。
技术实现思路
有鉴于此,有必要针对上述自动编码器对于原始数据的表达主要采取向量形式存在很大局限性的问题,提供一种基于深度学习的多层自动编码方法。并且还提供一种基于深度学习的多层自动编码系统。本专利技术提供的一种基于深度学习的多层自动编码方法,包括如下步骤:S10:设定自动编码器的个数及每一个自动编码器的神经节点数;S20:初始化权值矩阵和阈值;S30:对输入的原始数据进行编码,采用权值矩阵对原始数据进行变换,将原始数据采用张量形式进行表达并根据设定的神经节点数进行压缩编码;S40:对编码后的原始数据进行解码重构,获取重构的原始数据;S50:根据重构的原始数据与原始数据之间定义的最小平方误差函数,更新权值矩阵;S60:利用更新后的权值矩阵对原始数据再次进行编码获得压缩化的特征;S70:利用压缩化的特征通过迭代运算获得最终输出。可选的,所述步骤S10具体为:由用户根据需要,人工设置自动编码器的个数及每一个自动编码器的神经节点数。可选的,所述步骤S40具体为:在将原始数据采用张量形式表达进行编码后,通过学习原始数据的编码方式进行对应的转置运算,对编码后的原始数据进行解码重构,获取重构的原始数据。可选的,所述步骤S50具体为:采用BP算法更新权值矩阵。可选的,所述步骤S50具体为:引入稀疏性限制和KL散度更新权值矩阵。本专利技术提供的一种基于深度学习的多层自动编码系统,包括:设定模块,设定自动编码器的个数及每一个自动编码器的神经节点数;初始化模块,初始化权值矩阵和阈值;编码模块,对输入的原始数据进行编码,采用权值矩阵对原始数据进行变换,将原始数据采用张量形式进行表达并根据设定的神经节点数进行压缩编码;解码模块,对编码后的原始数据进行解码重构,获取重构的原始数据;有监督学习更新模块,根据重构的原始数据与原始数据之间定义的最小平方误差函数,更新权值矩阵;特征提取模块,利用更新后的权值矩阵对原始数据再次进行编码获得压缩化的特征;输出模块,利用压缩化的特征通过迭代运算获得最终输出。可选的,所述设定模块由用户根据需要,人工设置自动编码器的个数及每一个自动编码器的神经节点数。可选的,所述解码模块在将原始数据采用张量形式表达进行编码后,通过学习原始数据的编码方式进行对应的转置运算,对编码后的原始数据进行解码重构,获取重构的原始数据。可选的,所述有监督学习更新模块采用BP算法更新权值矩阵。可选的,所述有监督学习更新模块引入稀疏性限制和KL散度更新权值矩阵。本专利技术基于深度学习的多层自动编码方法及系统,结合深度学习原理与张量算法,采用张量的形式对原始数据进行表达,能够在不破坏原始数据结构的前提下,充分挖掘原有信息,并通过多层学习,获得更本质的抽象特征,从而克服采用向量表达的局限性,能较大程度上保留原始数据的结构信息,并且获得更为鲁棒的特征提取与模式学习,利于对原始数据本质的体现,有利于进行后续的模式分类。附图说明图1是一个实施例中基于深度学习的多层自动编码方法的流程图;图2是一个实施例中基于深度学习的多层自动编码系统的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。张量(tensor)理论是数学的一个分支学科,它可以满足一切物理定律必须与坐标系的选择无关的特性。张量概念是矢量概念的推广,张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,用于张量形式表达的样本可最大程度上保留原始结构,进而在特征提取阶段提取到更鲁棒的特征,故本专利技术自动编码方法基于深度学习,进行多层编码,采用张量的形式对原始数据进行表达,来克服矢量表达的局限性。具体的,如图1所示,是一个实施例中基于深度学习的多层自动编码方法的流程图,该方法包括如下步骤:S10:设定自动编码器的个数及每一个自动编码器的神经节点数。该步骤,由用户根据需要,人工设置自动编码器的个数及每一个自动编码器的神经节点数。S20:初始化权值矩阵和阈值。由于该方法对原始数据进行张量化处理,将原始数据以张量形式进行表达,为能够实现,设置权值矩阵并进行初始化,同时对阈值也进行初始化。S30:对输入的原始数据进行编码,采用权值矩阵对原始数据进行变换,将原始数据采用张量形式进行表达并根据设定的神经节点数进行压缩编码。在初始化权值矩阵后,采用初始化的权值矩阵能够将原始数据变换成张量形式,使得能够在编码阶段将原始数据变换成张量形式,能够最大程度上保留原始数据的原有信息。S40:对编码后的原始数据进行解码重构,获取重构的原始数据。该步骤在将原始数据采用张量形式表达进行编码后,通过学习原始数据的编码方式进行对应的转置运算,对编码后的原始数据进行解码重构,获取重构的原始数据。S50:根据重构的原始数据与原始数据之间定义的最小平方误差函数,更新权值矩阵。在对原始数据重构后,根据定义的最小平方误差函数来更新权值矩阵,进行优化。该步骤中,采用BP算法(BP,ErrorBackPropagation,误差反向传播算法)更新权值矩阵。更进一步的,为减少不必要的参数,引入稀疏性限制和KL散度更新权值矩阵。S60:利用更新后的权值矩阵对原始数据再次进行编码获得压缩化的特征。在更新优化了权值矩阵之后,采用优化了的权值矩阵对原始数据再进行编码,获取压缩化的特征。S70:利用压缩化的特征通过迭代运算获得最终输出。利用压缩化的特征采用迭代运算,从而能够获取最终输出。为更好的对本专利技术方法进行理解,下面以二阶张量为例对本专利技术方法进行阐述,但是本专利技术方法并不限于二阶张量,可以扩展到高阶张量,具体如下:第一步:人工设置自动编码器的个数为N个,每一个自动编码器的神经元节点个数为L个。第二步:初始化权值矩阵P和Q以及阈值B。样本(原始数据)为矩阵{X1,X2…XM},其中,Xi∈d1*d2的矩阵,p∈L*d1,q∈L*d2。第三步:样本进入编码阶段进行编码。输入的为二阶张量形式的样本矩阵X,利用(p本文档来自技高网...
基于深度学习的多层自动编码方法及系统

【技术保护点】
一种基于深度学习的多层自动编码方法,其特征在于,包括如下步骤:S10:设定自动编码器的个数及每一个自动编码器的神经节点数;S20:初始化权值矩阵和阈值;S30:对输入的原始数据进行编码,采用权值矩阵对原始数据进行变换,将原始数据采用张量形式进行表达并根据设定的神经节点数进行压缩编码;S40:对编码后的原始数据进行解码重构,获取重构的原始数据;S50:根据重构的原始数据与原始数据之间定义的最小平方误差函数,更新权值矩阵;S60:利用更新后的权值矩阵对原始数据再次进行编码获得压缩化的特征;S70:利用压缩化的特征通过迭代运算获得最终输出。

【技术特征摘要】
1.一种基于深度学习的多层自动编码方法,其特征在于,包括如下步骤:S10:设定自动编码器的个数及每一个自动编码器的神经节点数;S20:初始化权值矩阵和阈值;S30:对输入的原始数据进行编码,采用权值矩阵对原始数据进行变换,将原始数据采用张量形式进行表达并根据设定的神经节点数进行压缩编码;S40:对编码后的原始数据进行解码重构,获取重构的原始数据;S50:根据重构的原始数据与原始数据之间定义的最小平方误差函数,更新权值矩阵;S60:利用更新后的权值矩阵对原始数据再次进行编码获得压缩化的特征;S70:利用压缩化的特征通过迭代运算获得最终输出。2.根据权利要求1所述的基于深度学习的多层自动编码方法,其特征在于,所述步骤S10具体为:由用户根据需要,人工设置自动编码器的个数及每一个自动编码器的神经节点数。3.根据权利要求1所述的基于深度学习的多层自动编码方法,其特征在于,所述步骤S40具体为:在将原始数据采用张量形式表达进行编码后,通过学习原始数据的编码方式进行对应的转置运算,对编码后的原始数据进行解码重构,获取重构的原始数据。4.根据权利要求1所述的基于深度学习的多层自动编码方法,其特征在于,所述步骤S50具体为:采用BP算法更新权值矩阵。5.根据权利要求4所述的基于深度学习的多层自动编码方法,其特征在于,所述步骤S50具体为:引入稀疏性限制和KL散度更新权值矩阵。6...

【专利技术属性】
技术研发人员:王书强李涵雄卢哲曾德威
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1