【技术实现步骤摘要】
一种基于LRU的卷积神经网络的训练方法
本专利技术涉及卷积神经网络
,更具体地说,涉及一种基于LRU的卷积神经网络的训练方法。
技术介绍
随着人类社会信息量的爆炸式增长和计算资源的极大丰富,数据驱动的深度学习方法在众多领域获得了广泛的成功应用。特别地,在计算机视觉、自然语言处理等领域,卷积神经网络的成功尤为突出,已经成为了不可或缺的一种工具。近年来,得力于数据集规模的扩大、网络深度的增加、新式正则化方法和优化方法的应用、网络架构的创新,CNN的精度得到了极大的提升,这些模型有一个共同特征:其部署时的结构和训练时是相同的。因此,它们的训练时和部署时计算量密切相关。然而,在最新的CNN架构中,最基本的最常用的构件——卷积层,与传统的LeNet-5中卷积层的原理和实现方式并无区别。对于部署时速度相同的模型,为了进一步提高CNN的精度,需要在部署时不引入额外的计算开销的情况下为每个构件赋予更强大的表征能力,从而需要将部署时的计算开销与训练代价解耦。为此,提出一种基于LRU的卷积神经网络的训练方法。
技术实现思路
1.要解决的技术问题针对现有技术中存在的问题,本专利技术的 ...
【技术保护点】
1.一种基于LRU的卷积神经网络的训练方法,其特征在于,包括以下步骤:S1:使用LRU构建卷积神经网络,给定一个基本网络,通过将基本网络中的每个线性块替换为一个LRU,构造一个扩展网络,训练时的每个LRU包括两个或多个并行的具有相同结构和不同参数的线性块,且线性块的输入相同,每个线性块为一个线性分支,所有线性分支的输出的算术平均即为LRU的输出;S2:将扩展网络训练至收敛,在每个LRU中,每个线性分支的卷积核服从同一分布随机初始化,其他训练技术与方法与训练普通CNN相同,卷积层的训练目的是学到从输入到输出的最优映射,由于卷积层初始化的随机性和训练过程的随机性,对于单个线性块 ...
【技术特征摘要】
1.一种基于LRU的卷积神经网络的训练方法,其特征在于,包括以下步骤:S1:使用LRU构建卷积神经网络,给定一个基本网络,通过将基本网络中的每个线性块替换为一个LRU,构造一个扩展网络,训练时的每个LRU包括两个或多个并行的具有相同结构和不同参数的线性块,且线性块的输入相同,每个线性块为一个线性分支,所有线性分支的输出的算术平均即为LRU的输出;S2:将扩展网络训练至收敛,在每个LRU中,每个线性分支的卷积核服从同一分布随机初始化,其他训练技术与方法与训练普通CNN相同,卷积层的训练目的是学到从输入到输出的最优映射,由于卷积层初始化的随机性和训练过程的随机性,对于单个线性块,最优映射在该线性块能够学到的空间之外,若将多个随机初始化的线性块的输出的算术平均作为LRU的输入,能够降低陷入局部最优的几率,从而LRU可以学到更好的映射,提高CNN的表征能力,进而有效的提升普通网络的精度;S3:对得到的扩展网络等效转换为基本网络的结构,将每一个LRU转换为卷积核和偏置项的等效卷积层,对于每个输出通道,构造卷积核和偏置项,验证转换前后LRU是等价的;训练完成后,构建一个与基本网络结构相同的CNN,然后用扩展网络中的卷积核和偏置项对构造的基本网络中的对应层进行初始化,采用LRU替换全连接层,并以类...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。