基于学习自动机的深度神经网络优化方法技术

技术编号：15823271 阅读：305 留言：0更新日期：2017-07-15 05:18

一种基于学习自动机的深度神经网络优化方法，在深度神经网络的训练阶段，从全连接的初始网络结构出发，在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除，从而得到更为稀疏连接、具有更小的泛化误差的网络结构，以便用于对测试样本进行更高精度的图像分类，所述的弱连接，通过LA在训练过程中不断与神经网络交互而进行判定。本发明专利技术通过借鉴强化学习的思想，引入学习自动机算法改善传统的反向传播算法，去掉冗余连接以减少网络参数，从而提高在测试样本上的分类精度，使其具有更强的防止过拟合的能力。

全部详细技术资料下载

【技术实现步骤摘要】
基于学习自动机的深度神经网络优化方法
本专利技术涉及的是一种信息处理领域的技术，具体是一种基于学习自动机(LearningAutomata，LA)的深度神经网络中去除弱连接的方法。
技术介绍
神经网络是一种传统的机器学习算法，可以实现输入到输出的非线性映射，能应用于特征变换、分类、识别等任务中。由于其具有强大的模型表达能力，在模式识别、人工智能等领域得到了广泛应用。神经网络模型通常包含输入层、输出层和隐藏层，每层由特定个数的神经元组成，每个神经元可描述为y＝f(W*x+b)，其中：x代表输入向量；y代表输出值；权值向量W和偏置b为可训练的参数，其集合可用θ表示；f为非线性的激活函数(通常采用sigmoid函数或ReLU)。因此神经网络模型的每一层可描述为对输入进行加权求和，并通过非线性变换得到输出值。对于特定的训练样本，通常采用损失函数来衡量神经网络输出值与期望值之间的偏差，对模型的训练即求解θ，使得在训练样本上最小化损失函数。训练方法通常采用反向传播算法计算梯度，并采用梯度下降法迭代更新参数θ(权重和偏置值)，直至得到最优的θ值。与传统的神经网络相比，深层神经网络模型包含更多的隐藏层，每一层的输出直接作为下一层的输入。其每个隐藏层都对上一层的输出进行特征变换，得到更加抽象的特征，因此深层神经网络具有强大的特征表达能力。而且通过端对端的训练，深层神经网络可以实现完全自主学习特征，避免了人工设计特征的繁琐和盲目性。长期以来由于梯度弥散等理论问题以及硬件计算能力的限制，包含多个隐藏层的神经网络的训练一直是一个难以解决的问题。从2006年起，随着深度学习技术的兴...
基于学习自动机的深度神经网络优化方法

【技术保护点】
一种基于学习自动机的深度神经网络优化方法，其特征在于，在深度神经网络的训练阶段，从全连接的初始网络结构出发，在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除，从而得到更为稀疏连接、具有更小的泛化误差的网络结构，以便用于对测试样本进行更高精度的图像分类，所述的弱连接，通过LA在训练过程中不断与神经网络交互而进行判定。

【技术特征摘要】
1.一种基于学习自动机的深度神经网络优化方法，其特征在于，在深度神经网络的训练阶段，从全连接的初始网络结构出发，在通过梯度下降迭代更新参数的过程中不断找到网络中的弱连接并将其去除，从而得到更为稀疏连接、具有更小的泛化误差的网络结构，以便用于对测试样本进行更高精度的图像分类，所述的弱连接，通过LA在训练过程中不断与神经网络交互而进行判定。2.根据权利要求1所述的方法，其特征是，所述的弱连接，其判定具体为：通过对神经网络中的每一个连接，分别分配一个LA对当前连接的强弱进行判定，即：采用具有两个行为α1和α2的FSSA模型，其中：行为α1对应判定当前连接为强连接，α2对应判定当前连接为弱连接；每个行为对应N个内部状态，即LA共有2N个状态，记为L2N,N，其中：N代表记忆深度；该学习自动机的输出函数...

【专利技术属性】
技术研发人员：李生红，郭浩楠，马颖华，任栩蝶，汤璐，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人