一种基于浅度学习的神经网络迁移方法技术

技术编号:20746363 阅读:33 留言:0更新日期:2019-04-03 10:35
本发明专利技术公开了一种基于浅度学习的神经网络迁移方法,方法步骤为:步骤1、分类划分目标任务数据集并进行标记,存储标记数据作为浅度神经网络的训练数据x0;步骤2、输入x0至浅度神经网络,逐层训练得到预训练的浅度神经网络模型,x0经预训练神经网络模型后输出数据为x2;步骤3、将得到的预训练浅度神经网络模型的输出数据x2作为目标任务的深度神经网络模型的输入,以目标任务的带标记数据训练整个深度网络,对整个网络参数进行微调,完成神经网络迁移。本发明专利技术使用逐层训练的浅度神经网络学习模型作为任务迁移的基础模型,使迁移任务简单高效,扩展性强,解决了传统端到端深度神经网络迁移效果波动不定,甚至适得其反的问题。

【技术实现步骤摘要】
一种基于浅度学习的神经网络迁移方法
本专利技术属于计算机视觉
,具体涉及一种基于浅度学习的神经网络迁移方法。
技术介绍
浅度学习:即采用低层次神经网络用于机器学习。是机器学习对数据进行表征学习的方法。构建含少数隐藏层的学习结构来学习属性类别或特征,以发现数据的分布式特征表示。浅度的监督式神经网络比深度网络更容易被解释、分析和优化,但表征能力却不及深度网络。迁移学习:即把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习(startingfromscratch,tabularasa)。目前的神经网络迁移方法步骤为:1.寻找与目标任务相关的源任务,源任务要与目标任务差距不大。例如如果你要训练一个神经网络来识别肺部X光片中是否包含肿瘤,那么使用VGG16的网络就不如使用一个已训练好的判断脑部是否包含肿瘤的神经网络。后者与当前的任务有相似的场景,很多底层的神经员可以做相同的事,而用来识别日常生活中照片的网络,则难以从X光片中提取有效的特征。2.使用大量标记数据和海量显卡资源预先训练好一个能够解决源任务的深度神经网络,通常称之为BaseNetwork。3.把BaseNetwork的前n层中每个节点的权重迁移到目标任务的神经网络(TargetNetwork)的前n层。4.将TargetNetwork的其它层的训练参数随机初始化。5.开始训练目标任务神经网络。其中,在做反向传播的时候,有两种方法可以选择:(1)把迁移过来的这前n层冻结起来,即在训练目标任务神经网络的时候,不改变这n层的值;(2)不冻结这前n层,而是会不断调整全局神经网络的值(包括前n层),称为微调。这个主要取决于目标任务数据集的大小和前n层的参数个数,如果目标任务数据集很小,而参数个数很多,为了防止过拟合,通常采用冻结的方法;反之,采用微调参数。现有方法中的问题在于:1)采用预训练的源任务深度神经网络,则要保证源任务和当前的任务差距不大,不然迁徙学习的效果会很差,这增加了方法的复杂性且不易保证该效果。2)预训练的源任务深度神经网络需要使用大量标记数据和海量显卡资源,而迁移学习的目的即减少训练新目标任务深度神经网络时对海量带标记数据和显卡资源需求,如若事先没有开源的解决源任务的深度神经网络,同样需要这些资源用于预训练源任务深度神经网络,其实此方法没有从本质上解决使用深度学习完成目标任务对于资源的大量需求。3)采用预训练源任务深度神经网络的端到端迁移到另一个深度神经网络时,传统的迁移深度网络不明晰迁移层数,往往需要通过编程人员自身经验去试出更好的迁移效果,我们无从得知需迁移深度网络的前多少层才能使得最终目标任务网络训练效果最优,不易使该迁移方法变得高效,且训练好的端到端深度学习网络目标太过于“明确”,一定程度上影响目标任务预测结果。
技术实现思路
本专利技术的目的在于:目前神经网络迁移采用预训练的源任务的端到端深度神经网络迁移到另一个深度神经网络的方法,该方法不易保证迁徙学习的效果和目标任务预测结果,没有达到迁移学习减少训练新目标任务深度神经网络时对海量带标记数据和显卡资源需求的目的,且端到端深度神经网络迁移不易提高迁移效率,为了解决上述传统方法迁移效果波动不定,甚至适得其反的问题,提出了一种基于浅度学习的神经网络迁移方法。本专利技术采用的技术方案如下:一种基于浅度学习的图像识别任务迁移方法,方法步骤如下:步骤1、预处理目标任务数据集:分类划分目标任务数据集的相关任务并进行标记,并存储标记数据,作为浅度神经网络的训练数据x0;步骤2、预训练浅度神经网络:输入步骤1的训练数据至浅度神经网络,逐层训练得到预训练的浅度神经网络模型,预训练的浅度神经网络模型包括:第一卷积层,池化层,第二卷积层和分类器,训练数据x0经预训练的神经网络模型输出数据为x2;步骤3、迁移网络:将步骤2得到的预训练的浅度神经网络模型输出数据x2作为目标任务的深度神经网络模型的输入,以目标任务的带标记数据训练整个深度网络,对整个网络参数进行微调。进一步,所述步骤1中可对目标任务数据集进行拓展,只需相应地对增加的目标任务数据增加标记数据即可。进一步,所述步骤2预训练的浅度神经网络模型中两个卷积层都采用3×3卷积核操作。进一步,所述步骤2的浅度神经网络模型中,预训练的浅度神经网络模型数据处理过程具体为:训练数据x0经过第一卷积层的卷积,输出得到x1,x1经过池化层下采样,输出得到x2,将x1输入第二卷积层,再经过分类器,输出预测结果为z0,预训练浅度神经网络模型构建的计算公式如下:其中:c表示划分目标任务数据集的类别数量;P表示池化算子;Wθ表示一个带有参数θ的卷积算子;S表示分类器;ρ表示一个Relu激活函数;Rc表示识别任务集;Cy是一个CNN浅度神经网络层。进一步,所述步骤2中池化层的数据处理方法选择的是可逆的下采样运算,其中包括将初始的空间通道重组成4个以空间方式抽取的副本,这些副本通过2×2的空间子采样获得,从而将分辨率降低2倍。进一步,所述步骤2预训练浅度神经网络中用Cyx0表示第一卷积层的逐层训练过程,Cyx0用如下公式表示:其中:W0...Wk-2表示宽度恒定的卷积层;L表示一个输出维度为c的线性算子;当k=1时,Cy是一个简单的线性模型,即仅训练带有一个隐藏层的CNN浅度神经网络层,当这层网络训练结束之后才开始训练一个有两个隐藏层的CNN浅度神经网络层,以此类推,在每一次训练中,把已经训练好的前k-1层固定,然后增加第k层,在训练好具有三层隐藏层之后结束。进一步,当划分目标任务数据集的类别数量增加时,只需将所述步骤2中预训练的浅度神经网络模型对应增加相同数量的分类器。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、本专利技术中,在传统迁移学习的基础上,使用逐层训练的浅度神经网络学习模型作为任务迁移的基础模型,结合浅度学习容易被解释、分析和优化的优点,将浅度学习引入迁移学习中,使得浅度学习原本表征能力弱的缺陷成为更易被迁移的优势,能够使迁移任务简单高效,扩展性强。方法中先得到预训练浅度神经网络模型,再将整个预训练浅度神经网络模型作为目标任务神经网络模型结构首层,即将预训练浅度神经网络模型的输出数据x1作为目标任务的深度神经网络模型的输入,以目标任务的带标记数据训练整个深度网络,再对整个网络参数进行微调,解决了传统端到端深度神经网络迁移后迁移效果波动不定,甚至适得其反的问题。直接将预训练模型作为目标深度网络的首层,不必考虑将预训练模型的迁移层数,使得迁移学习简单高效。且本专利技术只需预训练一个浅度神经网络结构,对于前期准备的带标记数据和内存显卡资源需求较少,所构建的网络结构简单。2、本专利技术中,可对目标任务数据集进行拓展,只需相应地对增加的目标任务数据增加标记数据即可,同时,预训练模型是针对整个目标任务数据集的,不需关心两个目标任务的相关性,若想新增一个目标任务分类,则在预训练浅度神经网络模型最后增加一个Softmax分类器即可,不必从原始重新训练一个深度网络,可扩展性强。3、本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于浅度学习的神经网络迁移方法,其特征在于:方法步骤如下:步骤1、预处理目标任务数据集:分类划分目标任务数据集的相关任务并进行标记,并存储标记数据,作为浅度神经网络的训练数据x0;步骤2、预训练浅度神经网络:输入步骤1的训练数据至浅度神经网络,逐层训练得到预训练的浅度神经网络模型,预训练的浅度神经网络模型包括:第一卷积层,池化层,第二卷积层和分类器,训练数据x0经预训练的神经网络模型输出数据为x2;步骤3、迁移网络:将步骤2得到的预训练的浅度神经网络模型输出数据x2作为目标任务的深度神经网络模型的输入,以目标任务的带标记数据训练整个深度网络,对整个网络参数进行微调。

【技术特征摘要】
1.一种基于浅度学习的神经网络迁移方法,其特征在于:方法步骤如下:步骤1、预处理目标任务数据集:分类划分目标任务数据集的相关任务并进行标记,并存储标记数据,作为浅度神经网络的训练数据x0;步骤2、预训练浅度神经网络:输入步骤1的训练数据至浅度神经网络,逐层训练得到预训练的浅度神经网络模型,预训练的浅度神经网络模型包括:第一卷积层,池化层,第二卷积层和分类器,训练数据x0经预训练的神经网络模型输出数据为x2;步骤3、迁移网络:将步骤2得到的预训练的浅度神经网络模型输出数据x2作为目标任务的深度神经网络模型的输入,以目标任务的带标记数据训练整个深度网络,对整个网络参数进行微调。2.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法,其特征在于:所述步骤1中可对目标任务数据集进行拓展,只需相应地对增加的目标任务数据增加标记数据即可。3.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法,其特征在于:所述步骤2预训练的浅度神经网络模型中两个卷积层都采用3×3卷积核操作。4.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法,其特征在于:所述步骤2的浅度神经网络模型中,预训练的浅度神经网络模型数据处理过程具体为:训练数据x0经过第一卷积层的卷积,输出得到x1,x1经过池化层下采样,输出得到x2,将x1输入第二卷积层,再经过分类器,输出预测结果为z...

【专利技术属性】
技术研发人员:牛新征刘鹏飞徐畅李柯江朱家辉陈加伟朱戈潘袁湘
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1