基于学习自动机的深度神经网络优化方法技术

技术编号:15823271 阅读:305 留言:0更新日期:2017-07-15 05:18
一种基于学习自动机的深度神经网络优化方法,在深度神经网络的训练阶段,从全连接的初始网络结构出发,在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除,从而得到更为稀疏连接、具有更小的泛化误差的网络结构,以便用于对测试样本进行更高精度的图像分类,所述的弱连接,通过LA在训练过程中不断与神经网络交互而进行判定。本发明专利技术通过借鉴强化学习的思想,引入学习自动机算法改善传统的反向传播算法,去掉冗余连接以减少网络参数,从而提高在测试样本上的分类精度,使其具有更强的防止过拟合的能力。

【技术实现步骤摘要】
基于学习自动机的深度神经网络优化方法
本专利技术涉及的是一种信息处理领域的技术,具体是一种基于学习自动机(LearningAutomata,LA)的深度神经网络中去除弱连接的方法。
技术介绍
神经网络是一种传统的机器学习算法,可以实现输入到输出的非线性映射,能应用于特征变换、分类、识别等任务中。由于其具有强大的模型表达能力,在模式识别、人工智能等领域得到了广泛应用。神经网络模型通常包含输入层、输出层和隐藏层,每层由特定个数的神经元组成,每个神经元可描述为y=f(W*x+b),其中:x代表输入向量;y代表输出值;权值向量W和偏置b为可训练的参数,其集合可用θ表示;f为非线性的激活函数(通常采用sigmoid函数或ReLU)。因此神经网络模型的每一层可描述为对输入进行加权求和,并通过非线性变换得到输出值。对于特定的训练样本,通常采用损失函数来衡量神经网络输出值与期望值之间的偏差,对模型的训练即求解θ,使得在训练样本上最小化损失函数。训练方法通常采用反向传播算法计算梯度,并采用梯度下降法迭代更新参数θ(权重和偏置值),直至得到最优的θ值。与传统的神经网络相比,深层神经网络模型包含更多的隐藏层,每一层的输出直接作为下一层的输入。其每个隐藏层都对上一层的输出进行特征变换,得到更加抽象的特征,因此深层神经网络具有强大的特征表达能力。而且通过端对端的训练,深层神经网络可以实现完全自主学习特征,避免了人工设计特征的繁琐和盲目性。长期以来由于梯度弥散等理论问题以及硬件计算能力的限制,包含多个隐藏层的神经网络的训练一直是一个难以解决的问题。从2006年起,随着深度学习技术的兴起,深层神经网络的训练在理论上得到了一定程度的解决。计算机计算能力的提升特别是GPU加速的使用,以及更多的训练样本使得深层神经网络的训练成为可能,并且在计算机视觉、语音识别、自然语言处理等领域都取得了显著效果。然而,由于深度神经网络中包含大量参数,一旦网络设置过大,很容易陷入过拟合,使得测试集上的效果反而会变差。而网络大小的设置往往依靠经验及大量实验进行尝试,具有一定的盲目性。目前已经有一些防止网络过拟合的方法,如:在损失函数中加入正则项,以惩罚较大的权重值;设置验证集以监测泛化误差,当其不再减小时即停止训练;在每次迭代时随机丢掉一部分神经元等。
技术实现思路
本专利技术针对深度神经网络冗余参数过多,容易陷入过拟合的问题,提出一种基于学习自动机的深度神经网络弱连接的去除方法,在传统的梯度下降迭代过程中引入LA寻找连接中的弱连接,去掉冗余连接以减少网络参数,降低网络计算量,提高在测试样本上的分类精度,使其具有更强的防止过拟合的能力。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于学习自动机的深度神经网络优化方法,在深度神经网络的训练阶段,从全连接的初始网络结构出发,在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除,从而得到更为稀疏连接、具有更小的泛化误差的网络结构,以便用于对测试样本进行更高精度的图像分类。所述的弱连接,通过LA在训练过程中不断与神经网络交互而进行判定,具体是指:对神经网络中的每一个连接,分别分配一个LA对当前连接的强弱进行判定,即:采用具有两个行为α1和α2的FSSA模型,其中:行为α1对应判定当前连接为强连接,α2对应判定当前连接为弱连接;每个行为对应N个内部状态,即LA共有2N个状态,记为L2N,N,其中:N代表记忆深度;该学习自动机的输出函数为:当时刻t处于状态q(t)=qi,1≤i≤N,则输出α1,即判定当前连接为强连接;当处于状态q(t)=qi,N+1≤i≤2N,则输出α2,即判定当前连接为弱连接。所述的与神经网络交互是指:当当前连接权重大于阈值时,对当前LA进行奖励,否则,对LA进行惩罚:在没有任何先验知识的情况的初始时刻下,LA处于状态q1;经过一次迭代过程中,当LA得到奖励,则向判定为强连接的状态移动,即从当前状态qi转移到qi-1,当i=1则保持原状态;当LA得到惩罚,则向判定为弱连接的状态移动,即从当前状态qi转移到qi+1,当i=2N则保持原状态不变。所述的去除是指标记或者删除弱连接的过程,该过程最为简单的处理方案是:在前向传播时把当前权重置零;并且在反向传播过程中把当前权重的梯度置零。所述的LA可定义为一个五元组<A,B,Q,T,G>,其中:A为输出行为集合,也是LA需要最终从中找出最优行为的行为集;B为从环境输入的反馈的集合,通常包含奖励和惩罚两种;Q为LA内部状态的集合;T为状态转移方程,即LA根据环境反馈更新内部状态的策略;G为输出方程,描述从内部状态到输出行为的映射。技术效果与现有技术相比,本专利技术提出对神经网络中的连接进行判断,并去除弱连接的方法,并提出采用增强学习中的LA算法来完成弱连接的判断,其优势有以下几点:LA模型简洁直观,且不会耗费很大的额外计算量;LA采用迭代更新的优化过程,便于和梯度下降的迭代更新过程同步进行;由于训练过程中网络参数不断变化,处于非平稳环境中,而LA对非平稳及有噪声的环境具有很强的适应能力。与现有技术相比,本专利技术可以实现对深度神经网络的结构进行优化,有效地削减冗余连接,并实现用更少的参数得到更低的分类误差,由于神经网络内连接数量的减少,使得图像分类中的计算量有所降低,提高了分类速度。附图说明图1为本专利技术方法示意图;图2为本专利技术基于LA去除弱连接的神经网络训练流程图;图3为实施例中应用本专利的图像分类系统图。具体实施方式如图1所示,本实施例在深度神经网络的训练阶段,从全连接的初始网络结构出发,在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除,从而得到更为稀疏连接、具有更小的泛化误差的网络结构。如图3所示,为基于上述方法得到的优化后的深度神经网络对测试样本进行图像分类的过程,具体为:首先对原始的输入图像(如灰度图或RGB图像)进行简单的标准化预处理:对各个维度减去均值并除以方差,然后输入经训练的分类模型,进行分类并得到更高精度的结果。所述的分类模型包含深度神经网络和LA,其中:深度神经网络为全连接的多层前馈神经网络,LA负责对网络结构进行优化调整,即削减弱连接。如图2所示,为分类模型的训练过程,具体通过以下实施例进行描述。本实施例中采用MNIST手写数字数据集对基于专利所提出方法的分类模型进行训练,数据集中包含0-9共十类手写体数字,图像大小为28×28的灰度图。整个数据集分为训练集和测试集两部分,我们用训练集中的60000个样本对深度神经网络和LA进行训练,然后测试其在测试集10000个样本上的分类误差。训练过程包含以下步骤:步骤一:根据分类模型中采用的前馈神经网络层数及神经元数目初始化网络参数θ(包括权重W和偏置值b),对每个连接的权重设置一个LA并初始化其状态为q1。在本实施例中,分别构建了隐藏层数为2、3、4、5的前馈神经网络,每个隐藏层均为1000个神经元,对权重和偏置采用高斯初始化。步骤二:从训练集中随机抽取一个批次的样本,并采用反向传播方法计算损失函数对网络参数θ的梯度。为了增加网络的稀疏性,增大弱连接的比例以加快训练速度,可在损失函数中加入L1或L2正则项。此时损失函数中:代表预测误差,λ1、λ2分别为L1和L本文档来自技高网
...
基于学习自动机的深度神经网络优化方法

【技术保护点】
一种基于学习自动机的深度神经网络优化方法,其特征在于,在深度神经网络的训练阶段,从全连接的初始网络结构出发,在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除,从而得到更为稀疏连接、具有更小的泛化误差的网络结构,以便用于对测试样本进行更高精度的图像分类,所述的弱连接,通过LA在训练过程中不断与神经网络交互而进行判定。

【技术特征摘要】
1.一种基于学习自动机的深度神经网络优化方法,其特征在于,在深度神经网络的训练阶段,从全连接的初始网络结构出发,在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除,从而得到更为稀疏连接、具有更小的泛化误差的网络结构,以便用于对测试样本进行更高精度的图像分类,所述的弱连接,通过LA在训练过程中不断与神经网络交互而进行判定。2.根据权利要求1所述的方法,其特征是,所述的弱连接,其判定具体为:通过对神经网络中的每一个连接,分别分配一个LA对当前连接的强弱进行判定,即:采用具有两个行为α1和α2的FSSA模型,其中:行为α1对应判定当前连接为强连接,α2对应判定当前连接为弱连接;每个行为对应N个内部状态,即LA共有2N个状态,记为L2N,N,其中:N代表记忆深度;该学习自动机的输出函数...

【专利技术属性】
技术研发人员:李生红郭浩楠马颖华任栩蝶汤璐
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1