一种基于迁移模型的图像增量学习方法技术

技术编号:20623840 阅读:26 留言:0更新日期:2019-03-20 15:00
一种基于变分自编码器的图像增量学习方法,包括以下步骤:1)构造以ResNet50网络层结构为原型的主网络,引入MMD距离度量;2)设定优化器和学习率,采用知识蒸馏和权重惩罚策略;3)训练方式采用限制性的样本增量方法训练ResNet50模型;4)重载最近一次训练的最佳模型,重复使用限制性的样本增量方法训练,直到训练完所有增量数据。本发明专利技术使得对抗扰动的生成不再受限于实际中众多环境因素的影响,具有较高的实用价值。

An Incremental Image Learning Method Based on Migration Model

An image incremental learning method based on variational self-encoding includes the following steps: 1) constructing the main network with ResNet50 network layer structure as the prototype, introducing MMD distance measurement; 2) setting up the optimizer and learning rate, using knowledge distillation and weight penalty strategy; 3) training ResNet50 model with limited sample increment method; 4) optimum module for the last heavy-duty training; Type I. Repeat the training with the restrictive sample increment method until all the incremental data have been trained. The invention makes the generation of anti-disturbance no longer limited to the influence of many environmental factors in practice, and has high practical value.

【技术实现步骤摘要】
一种基于迁移模型的图像增量学习方法
本专利技术涉及增量学习方法和知识蒸馏技术,借鉴了迁移学习(TransferLearning)的思想,利用权重惩罚(WeightPunish)的技巧,结合限制性的样本增量学习方法,控制每次学习过程中的训练样本数目,在保持旧类别分类识别精度的前提下,同时提高对新增类别数据的分类精度,从而达到在原有模型上的增量学习。
技术介绍
近年来,深度卷积神经网络(DeepConvolutionalNeuralnetwork,DCNNs)已成为大规模图像分类的主要结构。2012年,AlexNet通过实施Deep-CNN并将DCNNs推入大众视野下,赢得了ImageNet大规模视觉识别挑战(ISLVRC)。从那时起,它们就主导了ISLVRC,并在MNIST、Cifar10/100和ImageNet等流行的图像数据集上表现出色。随着对大量标记数据(例如ImageNet包含120万幅图像和1000个类别)的出现,在图像识别领域中,监督学习得到快速发展。通常情况下,DCNN是在包含大量标签的图像数据集中进行训练的。网络学习提取相关特征并对这些图像进行分类。这个训练过的模型被用于对无标签图像进行分类。在训练过程中,所有的训练数据都会提供给网络进行重复训练。然而,在现实世界中,我们很难同时拥有所有数据的数据分布。相反,数据是逐步收集而汇总得到的。因此,我们需要一个方法可以学习新的数据,并且不会遗忘旧的知识。增量学习可以很好地解决这个问题,同时增量学习在图像识别领域很大程度上依赖于DCNN的发展。DCNN能够在同一个模型中实现特征提取和分类识别,但是对模型的参数空间稍作修改会对模型输出产生巨大影响。DCNN增量训练的另一个难题是灾难性遗忘问题,可参考文献1(I.J.Goodfellow,M.Mirza,D.Xiao,A.Courville,andY.Bengio.“Anempiricalinvestigationofcatastrophicforgettingingradient-basedneuralnetworks.”arXivpreprintarXiv:1312.6211,2013,即I.J.Goodfellow,M.Mirza,D.Xiao,A.Courville,andY.Bengio.基于梯度的神经网络中灾难性遗忘的证实研究.arXivpreprintarXiv:1312.6211,2013)。当新的数据被输入DCNN时,它会破坏从先前数据中学习到的特性。这要求在对新数据进行再次训练时使用先前的数据。近年来在增量学习方面取得了较大进展,例如iCaRL,它是目前增量学习领域较为有效的方法,它将深度学习与k近邻(KNN)方法相结合,利用深度学习提取数据的高阶特征,并使用KNN作为最终的分类器。在分类过程中,它使用属于该类的所有训练数据(或保留的范例)计算某个类别的平均高阶特征,为测试数据找到最近的平均类别表征,并相应地分配类别标签。为了减少类数量急剧增加时的内存占用,该方法为每个类别存储一个范例集,可参考文献2(Rebuffi,S.,Kolesnikov,A.,andLampert,C.H.(2016).“iCaRL:Incrementalclassifierandrepresentationlearning.”CoRR,abs/1611.07725,即Rebuffi,S.,Kolesnikov,A.,andLampert,C.H.(2016).iCaRL:Incrementalclassifierandrepresentationlearning.CoRR,abs/1611.07725)。尽管该方法在一部分数据集上的性能令人印象深刻,但它在生物信息学数据集上的效果却急剧下降。同时,迁移学习在增量学习中也起着重要的作用。它允许我们利用过去的知识,而且CNN的初始层可以学习到通用的低阶特性。利用DCNN卷积层之间共享权重的特性来构建分类器。这些特性可以按照语义进行分组,或者按照特征驱动,比如FALCON,可参考文献3(P.Panda,A.Ankit,P.Wijesinghe,andK.Roy.“Falcon:Featuredrivenselectiveclassificationforenergy-efficientimagerecognition.”IEEETransactionsonComputer-AidedDesignofIntegratedCircuitsandSystems,36(12),2017,即P.Panda,A.Ankit,P.Wijesinghe,andK.Roy.“Falcon:高效图像识别的特征驱动选择性分类”IEEETransactionsonComputer-AidedDesignofIntegratedCircuitsandSystems,36(12),2017)。目前国内外对增量学习技术的研究还处于起步阶段。增量学习作为一种减少对时间和空间依赖的有效手段,在经济社会的发展中起着重要的作用,需要对增量学习方法进行更深入和更广泛的研究。
技术实现思路
为了解决实际应用场景下数据库中的数据动态变化的问题,避免在海量数据下进行重复学习,满足只需修改因数据分布变化所引起的部分模型参数变动的特点,本专利技术提出以深度适配网络(DeepAdaptationNetwork,DAN)为基础,通过引入样本增量的方法,严格控制每次增量学习中样本的使用量,减小在先前所有样本上的重复学习所带来的训练时间代价。DAN中的最大均值差异(MaximumMeanDiscrepancy,MMD)损失函数能够减小因训练样本不平衡所带来的分类性能差异,引入权重惩罚进一步缓解样本不平衡的问题,同时利用知识蒸馏引入KL相对熵损失函数缓解灾难性遗忘问题。这种增量学习方法适应了实际应用场景的需求,在人工智能领域具有重要的研究和应用价值。本专利技术实现上述专利技术目的所采用的技术方案为:一种基于迁移模型的图像增量学习方法,包括以下步骤:S1:构造以ResNet50网络层结构为原型的主网络,在ResNet50最后输出层后添加MMD,MMD是迁移学习,用来度量两个相关但不同分布之间的距离;S2:ResNet50模型采用Adam训练优化器,学习率为自适应下降的策略,同时,基础分类损失函数是交叉熵函数,权重惩罚策略为加大对先前样本错分的损失值,利用知识蒸馏引入KL相对熵损失函数缓解遗忘已训练的类别;S3:训练方式采用限制性的样本增量方法训练ResNet50模型:每次增量训练时,随机选取50%新增类别数据,并结合相同数量的先前类别数据进行联合训练,严格控制了单次训练样本和训练时间,训练结束后,评估在测试集上精度,并且保存性能最高的模型参数;S4:重载最近一次训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据。进一步,所述步骤S1中,ResNet50是一个残差结构的卷积神经网络,在2015年ImageNet比赛classification任务上获得第一名,在图像识别领域起着至关重要的作用,借鉴DAN中MMD的思想,在ResNet50最后输出层后添加MMD,MMD是迁移学习,其是Domaina本文档来自技高网
...

【技术保护点】
1.一种基于迁移模型的图像增量学习方法,其特征在于,所述方法包括如下步骤:S1:构造以ResNet50网络层结构为原型的主网络,在ResNet50最后输出层后添加MMD,MMD是迁移学习,用来度量两个相关但不同分布之间的距离;S2:ResNet50模型采用Adam训练优化器,学习率为自适应下降的策略,同时,基础分类损失函数是交叉熵函数,权重惩罚策略为加大对先前样本错分的损失值,利用知识蒸馏引入KL相对熵损失函数缓解遗忘已训练的类别;S3:训练方式采用限制性的样本增量方法训练ResNet50模型:每次增量训练时,随机选取50%新增类别数据,并结合相同数量的先前类别数据进行联合训练,严格控制了单次训练样本和训练时间;训练结束后,评估在测试集上精度,并且保存性能最高的模型参数;S4:重载最近一次训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据。

【技术特征摘要】
1.一种基于迁移模型的图像增量学习方法,其特征在于,所述方法包括如下步骤:S1:构造以ResNet50网络层结构为原型的主网络,在ResNet50最后输出层后添加MMD,MMD是迁移学习,用来度量两个相关但不同分布之间的距离;S2:ResNet50模型采用Adam训练优化器,学习率为自适应下降的策略,同时,基础分类损失函数是交叉熵函数,权重惩罚策略为加大对先前样本错分的损失值,利用知识蒸馏引入KL相对熵损失函数缓解遗忘已训练的类别;S3:训练方式采用限制性的样本增量方法训练ResNet50模型:每次增量训练时,随机选取50%新增类别数据,并结合相同数量的先前类别数据进行联合训练,严格控制了单次训练样本和训练时间;训练结束后,评估在测试集上精度,并且保存性能最高的模型参数;S4:重载最近一次训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据。2.如权利要求1所述的一种基于迁移模型的图像增量学习方法,其特征在于:所述步骤S1中,ResNet50是一个残差结构的卷积神经网络,在ResNet50最后输出层后添加MMD,MMD是迁移学习,用来度量两个相关但不同分布之间的距离,定...

【专利技术属性】
技术研发人员:宣琦缪永彪陈晋音
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1