一种基于动态修正向量的图像增量学习方法技术

技术编号:24290100 阅读:99 留言:0更新日期:2020-05-26 20:15
一种基于动态修正向量的图像增量学习方法,包括以下步骤:S1构造以ResNet‑32网络层结构为模型的主干网络,采用Adam训练优化器,同时,基础分类损失函数是Kullback‑Leibler Divergence相对熵损失函数;S2损失函数引入知识蒸馏,结合分类损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;S3训练方式采用代表性记忆方法和动态修正向量方法训练ResNet‑32模型;S4重载上一增量阶段训练的最佳模型,重复步骤S2~S3,评估在所有测试集上的性能,直到训练完所有增量数据。本发明专利技术提高了增量学习任务的识别能力,具有较高的实用价值。

An incremental image learning method based on dynamic correction vector

【技术实现步骤摘要】
一种基于动态修正向量的图像增量学习方法
本专利技术涉及知识蒸馏(KnowledgeDistillation)技术和代表性记忆(RepresentativeMemory)方法,利用动态修正向量(DynamicCorrectionVector)的技巧,在保持旧类别分类识别精度的前提下,同时提高对新增类别数据的分类精度,从而实现在原有数据集上的增量学习识别任务。
技术介绍
近年来,深度卷积神经网络(DeepConvolutionalNeuralNetwork,DCNNs)大量用于检测、分割、物体识别以及图像的各个领域。尽管卷积神经网络应用的很成功,但是它被计算机视觉以及机器学习团队开始重视是在ImageNet竞赛。2012年,AlexNet通过实施Deep-CNN并将DCNNs推入大众视野下,该结果达到了前所未有的效果,几乎比当时最好的方法降低了一半的错误率,从而轻松赢得了ImageNet大规模视觉识别挑战(ISLVRC)。从此之后,DCNNs就主导了ISLVRC,并在MNIST、Cifar-100和ImageNet等流行的图像数据集上表现出色。...

【技术保护点】
1.一种基于动态修正向量的图像增量学习方法,其特征在于,所述方法包括如下步骤:/nS1:构造以ResNet-32网络层结构为模型的主干网络,用于识别增量阶段任务中出现的新旧类别,ResNet-32模型采用Adam训练优化器,同时,基础分类损失函数是Kullback-Leibler Divergence相对熵损失函数;/nS2:ResNet-32引入知识蒸馏损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;/nS3:训练方式采用代表性记忆方法,即预定义的超参数K用于固定系统内存中保存的旧类别数据的数目,从而联合新到来的数据训练ResNet-32模型:内存中的每一类数据的数目都相同;每次...

【技术特征摘要】
1.一种基于动态修正向量的图像增量学习方法,其特征在于,所述方法包括如下步骤:
S1:构造以ResNet-32网络层结构为模型的主干网络,用于识别增量阶段任务中出现的新旧类别,ResNet-32模型采用Adam训练优化器,同时,基础分类损失函数是Kullback-LeiblerDivergence相对熵损失函数;
S2:ResNet-32引入知识蒸馏损失函数,帮助新模型学习旧类别中的知识,缓解灾难性遗忘问题;
S3:训练方式采用代表性记忆方法,即预定义的超参数K用于固定系统内存中保存的旧类别数据的数目,从而联合新到来的数据训练ResNet-32模型:内存中的每一类数据的数目都相同;每次增量训练结束后,随机删除内存中每一类的旧数据,为新到来的数据预留存储空间,动态修正向量用于训练过程中统计模型训练的数据类别,防止模型在预测阶段过多偏向于数据较多的类别;
S4:重载上一增量阶段训练的最佳模型,重复S2~S3步骤,评估在所有测试集上的性能,直到训练完所有增量数据。


2.如权利要求1所述的一种基于动态修正向量的图像增量学习方法,其特征在于:所述步骤S1中,ResNet-32是一个残差结构的卷积神经网络,残差结构可以防止过拟合发生,提高模型在训练中的收敛速度,在增量学习中起着至关重要的作用,ResNet-32模型采用Adam训练优化器,提高了模型参数的优化速率,同时,基础分类损失函数是Kullback-LeiblerDivergence相对熵损失函数,它有着比交叉熵损失更加低的数值,减小了超参数的选取的敏感性,定义为:



其中xi表示第i个数据,yi表示第i个数据的标签,表示标准的Kullback-LeiblerDivergence相对熵损失函数,G(xi)表示新模型对于第i个数据的响应输出,表示本增量阶段的训练数据集。


3.如权利要求1或2所述的一种基于迁移模型的图像增量学习方法,其特征在于:所述步骤S2中,ResNet-32引入知识蒸馏具体来说,在每一个增量步骤中,教师模型是前一个增量步骤中完全训练过的学生模型,而学生模型是当前步骤的更新模型,假设F(xi)是教师模型在i增量步骤中预测的输入xi的概率分布,G(xi)是学生模型的softmax层的输出;
概率标签由教师模型的分类层计算得到,...

【专利技术属性】
技术研发人员:宣琦缪永彪陈晋音翔云
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1