System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于低秩自适应组合的图像分类预训练模型连续学习方法技术_技高网

基于低秩自适应组合的图像分类预训练模型连续学习方法技术

技术编号:40509200 阅读:27 留言:0更新日期:2024-03-01 13:24
本发明专利技术公开了一种基于低秩自适应组合的图像分类预训练模型连续学习方法,属于图像分类领域。在本发明专利技术提出(1)预训练模型在连续过程中,其权重变化存在低秩性,因此LoRA是一种更适合预训练模型进行连续学习的微调方式,(2)一种的LoRA模块加权组合方式,通过更新当前任务对应的LoRA模块及加权系数,帮助模型结合新旧任务的知识,在可塑性和稳定性间找到平衡;(3)一种正交损失,用于约束当前任务对应的LoRA模块的参数更新,使得模型在新旧任务上学习的知识不会相互干扰,进一步提升了模型的可塑性。此外,本发明专利技术提出的方法可以和基于回放的方法或免回放的方法相结合,在多个数据集上展现出优异的性能。

【技术实现步骤摘要】

本专利技术属于图像分类领域,特别是采用分类神经网络对图像进行分类领域。


技术介绍

1、近年来,深度学习(dl,deep learning)已经在计算机视觉(cv,computervision)和自然语言处理(nlp,natural language processing)领域取得了显著的进步;其目标是通过使用固定的数据集进行离线开发训练深度神经网络,使其在对应的任务上表现出优异的性能;在深度学习早期,由于数据和计算资源的限制,训练大规模的深度神经网络非常困难。随着大数据和计算能力的提升,研究人员开始尝试在大规模数据集上训练模型,并将这些模型应用于其他任务,预训练模型由此产生。预训练模型(pre-trained models)是在大规模数据集上训练得到的模型,这些模型可以在特定任务上进行微调(fine-tuning)以适应特定的应用。预训练模型利用迁移学习的思想,先在大量数据上学习样本的通用特征,然后将这些学到的特征应用到特定的任务上。预训练模型早期出现在图像处理领域,使用预训练的卷积神经网络(cnn,convolutional neural network)进行图像识别是标准做法;后来,预训练模型在nlp领域取得快速发展,特别是transformer的提出以及后续基于transformer的大模型bert和gpt系列的推出,推动了预训练模型在语言理解和生成方面的应用。vision transformer的提出,标志着transformer架构在cv领域的成功应用,为后续cv领域的预训练模型打下了基础。预训练模型由于其能够将在大规模数据集上学习到的复杂模式和特征迁移到具体任务中,从而显著提高效率和准确性;利用下游任务数据对预训练模型进行微调,已然成为当下深度学习的主流范式。

2、通用人工智能以预训练模型为基础,已经成为当下热门研究方向。但传统的训练模型的方式是在固定数据集上进行训练,这意味着训练好的模型是固定的,在运行过程中网络内部的参数不会再发生改变,因此无法适应不断变化的环境。然而,现实世界的应用并不是单一的,且需要模型处理的数据流也是在连续变化。因此,随着时间的推移,模型面对的数据和任务是不断变化的,上述使用固定数据集训练得到的静态模型则无法在这种情景下表现出优异的性能。一种可能的解决方案是在数据分布发生变化时,重新训练网络,然而由于预训练模型往往具有很大的参数量,使用扩展后的数据集进行完整训练,其计算成本在现实世界中计算资源受限的情况下是无法接受的。为了实现通用人工智能,更希望模型能够像人类一样,拥有在其整个生命周期内逐步获取、更新、积累和利用知识的能力,这种能力被成为连续学习或持续学习。

3、连续学习(continual learning)是模型能够在众多任务中进行顺序学习,并同时保留从先前任务中获得知识的能力。通常,神经网络模型在学习新任务后,会倾向于忘记在之前任务上学习到的知识,这种现象被称为灾难性遗忘(catastrophic forgetting)。过去几年,已经有大量的研究致力于解决这个问题。当前经典的连续学习算法可分为三类:基于正则化的方法,基于结构改进的方法以及基于回放方法。基于正则化的方法是通过加入明确的正则化项,约束模型的权重更新,以平衡模型在新旧任务上学习的知识;基于结构的方法,通过动态拓展网络结构或分离特定于不同任务的网络模块,以解决上述问题;基于回放的方法则是设置记忆缓存区来存储和回放过去的样本,以缓解遗忘。尽管基于回放的方法思想简单,但其已经被证明在各种基准测试中保持优异的性能。

4、上述经典的连续学习方法,通常是使用每个新任务的样本,对模型进行重新训练,并用最后一个模型对所有任务的测试样本进行预测。随着预训练模型及其各种微调方式的出现和发展,将预训练模型应用到连续学习领域,已经成为该领域的主流研究方向。过去几年,prompt tuning已经成为将预训练模型与连续学习结合的最常用的微调方法;其主要思想是:在训练时通过查询机制为每个任务的样本选择一组可学习的参数向量,称为prompt,并将其和模型输入的图像向量进行拼接,再送入后续模块中进行训练;参考文献:wang z,zhang z,lee c y,et al.learning to prompt for continual learning[c]//proceedings of the ieee/cvf conference on computer vision and patternrecognition.2022:139-149.这种方法往往会受到prompt长度的限制,保留部分长度用于自适应当前任务,必然会减少可用于处理之后的任务的长度,从而导致性能下降。现有工作指出,预训练模型在适应当前任务时,往往具有较低的内在维度,因此提出一种低秩自适应的微调方式,通过将预训练模型在自适应过程中的增量参数分解为两个低秩矩阵的乘积,在训练过程中仅更新这两个低秩矩阵,达到了与全微调相近的性能,这种微调方式被称为lora(low-rank adaption)。参考文献:hu e j,shen y,wallis p,et al.lora:low-rankadaptation of large language models[j].arxiv preprint arxiv:2106.09685,2021.发现预训练模型在序列任务上进行训练,其参数设置相对过高,并且在连续学习过程中其权重变化同样存在低秩性;因此认为lora是更适合将预训练模型与连续学习结合的微调方法。本专利技术致力于将lora应用到基于预训练模型的视觉连续学习任务,利用lora的参数高效性和低秩性,提升模型的性能,构建更鲁棒合理的连续学习模型,推动基于预训练模型的连续学习技术不断向前发展。


技术实现思路

1、本专利技术是一种基于预训练模型的连续学习方法,通过引入和改进lora这种微调方式,使得预训练模型能够在序列任务上完成连续学习。该方法通过将模型在每个任务上学习到的lora权重进行加权组合,利用组合后的权重对预训练模型进行微调,使其能够在所有任务上都具有良好的测试性能;同时该方法还创新设计了一种正交损失,用于减少不同任务上的lora权重之间的相互干扰,进一步提升了模型的性能。

2、该方法首先设计基于lora的适用于连续学习的组合微调方式,将数据集划分为多个任务,在每个任务上学习更新特定于该任务的lora权重,并在当前任务训练完成后,将之前任务上学习到的lora权重以及当前任务上的lora权重进行加权组合,对预训练模型进行微调;最终使用一个线性分类器对测试样本进行分类,测试模型的性能。本方法的重点在于引入lora这种更适合预训练模型连续学习的微调方式,并对其进行改进,同时设计了一种正交损失用于约束lora权重的更新,最终提升了模型的性能。本专利技术从方法设计和应用的角度出发,主要做了以下的工作:1)引入lora这种预训练模型微调方式,对其进行改进:组合过去任务上学习的lora模块以及当前任务上的lora模块,以增强预训练模型在连续学习中处理一本文档来自技高网...

【技术保护点】

1.一种基于低秩自适应组合的图像分类预训练模型连续学习方法,该方法包括:

【技术特征摘要】

1.一种基于低秩自适应组合的图像分类...

【专利技术属性】
技术研发人员:潘力立凌世谋张亮赵江伟吴庆波许林峰李宏亮
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1