System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于非参数化多阶段伪特征构造的小样本增量式参数更新方法技术_技高网

基于非参数化多阶段伪特征构造的小样本增量式参数更新方法技术

技术编号:41224325 阅读:2 留言:0更新日期:2024-05-09 23:43
提供了基于非参数化多阶段伪特征构造的小样本增量式参数更新方法。深度学习模型的小样本增量式更新是一个具有挑战性的技术难题,其对已经训练的模型进行微调更新,以此使得训练后的模型利用有限数量的有标注训练样本在不忘记先前学习到的知识的情况下连续学习新知识。模型在学习新知识的同时可能会遗忘已有知识,极其有限的样本也导致学习到的新知识可能存在偏差,即模型的灾难性遗忘问题和参数过拟合问题,为了应对上述问题,本发明专利技术提出了一种多阶段构造伪特征的方式微调模型的方法,本发明专利技术所提出方法是一种非参数方法,具有节省存储空间、节约计算资源、可解释性较高等优点。

【技术实现步骤摘要】

本专利技术属于图像处理,增量学习(g06f,g05b),具体涉及一种基于非参数化特征生成方法的小样本增量式模型更新技术。


技术介绍

1、在过去的十年里,传统的深度学习算法在许多静态数据场景中都取得了令人印象深刻的效果,例如人脸识别[1]、目标检测[2]、语义分割[3]等等,这些成就不仅归功于他们的网络设计,还需要大量有标注的训练数据的支持。然而,现实世界中的数据流分布状态是不断更新的,并不是像大多数模型所假设的那样一成不变的,因此在现实世界的应用中,深度学习模型通常需要不断更新以适应新的数据分布。此外,数据标注所附带的高昂成本也迫使人们不得不减少训练深度学习模型所需的样本数量。随着各类大模型如雨后春笋般出现[4,5],人们发现当数据流中所涉及的知识范围逐渐增加时,大多数现有的深度学习算法需要在大量标注训练样本的支持下进行再训练,以适应变化的数据分布,其重新训练的成本通常是较为高昂的;同时,在各种因素的影响下,如数据流的持续更新、高数据标注成本、隐私问题、数据稀缺,以及硬件限制等,模型多次再训练所涉及的问题可能会是无法令人接受的,相比之下,人类具有通过几个例子直接学习新概念,并同时保留以前的知识的能力。深度学习模型是否也能够获得类似等能力,即具有通过几个样本学习新的知识,同时尽可能保留已有的类别知识,从而避免成本高昂的模型再训练过程,因此深度学习领域尤其是大模型亟需一种能够使得模型利用少量样本进行增量式模型更新的技术,从而使其能够向人类一样不断学习新知识,同时尽量避免高昂的训练成本和其他问题。

2、对于小样本增量式模型更新技术而言,其核心挑战是克服灾难性遗忘[6]和过度拟合[7]的问题。模型更新时,每个需要学习的新知识只包括有限的训练样本,同时前置任务中涉及的原始训练数据将不再可用,因此,如果使用传统深度学习算法对新类的直接适应往往会导致对旧知识的灾难性遗忘,同时由于只有少数训练样本可用于新知识,过拟合的风险也将显著增加。

3、为了解决小样本增量式模型更新技术中所存在的诸多问题,前人所提出的技术主要包括以下三种,即参数化生成式方法[8]、动态模型结构式方法[9,10],以及特殊优化过程式方法[11,12],其中后两者受限于特殊的网络结构和参数优化方法因而不具有普适性,而参数化生成式方法又因其引入了额外的参数而受到诟病,因此,本专利技术试图提出一种新方法,即通过多阶段非参数化伪特征生成的方法进行模型的更新,从而使其在具有普适性的同时不会引入额外的可学习参数。

4、总得来说,本专利技术试图通过信号重建的思想,构建传统机器学习方法和深度学习方法的桥梁,以多阶段生成学习新知识和温习旧知识所需的伪特征的方式,达到解决小样本增量条件下模型容易产生灾难性以往和过度拟合的问题,具体来说,本专利技术首先通过采样得到旧知识的伪特征,然后利用旧知识的分布信息作为指引,通过特征重建的方式生成新知识的伪特征,最后将生成的伪特征进行加噪、归一化等后处理后,将其统一用于模型参数的更新,以保证其在学习新知识的同时避免忘记旧知识。


技术实现思路

1、本专利技术的目的是基于统计学和深度学习的理论和方法,研究资源消耗低、普适性高的小样本增量式模型更新技术,其能够利用极其有限的资源更新模型参数,使其在学习新知识的同时不忘记旧有知识,从而完成知识的更新。

2、本专利技术设计了一种基于非参数化伪数据生成的小样本增量式模型更新技术,该项技术从数据预处理、消息记录、特征重放、特征重建等多方面做出了创新,从而解决了其他相关技术的痛点问题,多项实验表明,本专利技术提出的技术具有明显的性能优势和效率优势。

3、本专利技术包括以下步骤:

4、步骤s1:特征抽取;

5、步骤s11:进行模型预训练。

6、步骤s12:利用预训练的模型进行特征抽取。

7、步骤s2:旧有知识记录;

8、步骤s21:计算特征每一通道的样本均值和样本方差。

9、步骤s22:将s21中得到的样本均值和样本方差视作总体期望和总体方差,计算放缩的卡方分布的系数α和自由度n。

10、步骤s3:伪特征生成;

11、步骤s31:在s22中的特征分布直接进行采样,作为旧知识的伪特征。

12、步骤s32:抽取增量知识的特征,借助步骤s31所得到的伪特征,利用信号重建[13]的思想,计算新旧知识的相关度并进行新知识的特征重建,得到新知识的伪特征。

13、步骤s4:增量模型训练;

14、步骤s41:利用s31和s32中生成的伪特征,进行加噪等后处理。

15、步骤s42:利用s41经过后处理的伪特征,进行模型的增量式更新。

16、本专利技术在充分分析其他模型更新技术的不足的基础上,通过非参数化和生成式两种核心思想,提出了更具有广泛应用前景的参数更新技术,实验结果证明了本专利技术达到了十分先进的水平。

17、本专利技术的有益效果在于:

18、1.本专利技术基于与信号重建类似的非参数化思想,其生成的特征更具有可解释性,使得模型的更新方向更加准确可控。

19、2.本专利技术研究模型参数的小样本增量式更新,其对于大模型以及各类ai应用有着重要的研究意义和巨大的应用价值。

本文档来自技高网...

【技术保护点】

1.一种基于非参数化特征生成方法的小样本增量式模型更新方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤S11中,根据L=Lce(x,y)+Lssl(q,k)作为损失函数,其中Lce(x,y)为常规的类别监督损失,y为实际类别概率,x为预测的类别概率;Lssl(q,k)则为类别监督对比学习损失,q和k为样本对抽取的特征,k+为正样本,L表示使用二者同时监督;

3.根据权利要求2所述的方法,其特征在于,步骤S12中,利用预训练的模型进行特征抽取;其中,利用步骤S11中得到的模型φ进行特征抽取,I为本任务中所涉及的知识,F为抽取得到的特征,

4.根据权利要求3所述的方法,其特征在于,步骤S21中,计算特征每一通道的样本均值和样本方差,其中Fi,j,k表示第i类别第j通道第k样本的特征值,为样本均值,为对应的样本方差,对于新增知识,仅需记录

5.根据权利要求4所述的方法,其特征在于,步骤S22中,将S21中得到的样本均值和样本方差视作总体期望和总体方差,计算放缩的卡方分布的系数α和自由度n;在这一步骤中,将每一类别以及每一通道的特征值视为带放缩因子的卡方分布中采样得到的数据点,利用S21中计算得到的样本均值和样本方差,通过样本均值和总体期望的关系,以及样本方差和总体方差的关系,进而估计每一个类别和每一个特征通道对应的放缩的卡方分布的系数αi,j和自由度ni,j,并记录下来,作为每一个类别知识的高度抽象,Fi,j~αi,jX2(ni,j),其中[]表示四舍五入取整。

6.根据权利要求5所述的方法,其特征在于,步骤S31中,在S22中的特征分布直接进行采样,作为旧知识的伪特征;在这一步骤中,直接从带放缩因子的卡方分布中采样即可,得到伪特征

7.根据权利要求6所述的方法,其特征在于,步骤S32中,利用抽取得到的新增知识的特征和步骤S2中记录的已新增知识的特征均值,借助步骤S31所得到的旧类别的特征特征,通过计算新旧知识的相关度并进行新知识的特征重建,得到新知识的伪特征,步骤S32包括:首先,计算旧类别的样本特征形成的中心点,d为特征的维数,

8.根据权利要求7所述的方法,其特征在于,步骤S41中,利用S31和S32中生成的伪特征,进行加噪等后处理ε即为添加的噪声,其中在均值为0方差为0.1的正态分布中对噪声进行采样,

...

【技术特征摘要】

1.一种基于非参数化特征生成方法的小样本增量式模型更新方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤s11中,根据l=lce(x,y)+lssl(q,k)作为损失函数,其中lce(x,y)为常规的类别监督损失,y为实际类别概率,x为预测的类别概率;lssl(q,k)则为类别监督对比学习损失,q和k为样本对抽取的特征,k+为正样本,l表示使用二者同时监督;

3.根据权利要求2所述的方法,其特征在于,步骤s12中,利用预训练的模型进行特征抽取;其中,利用步骤s11中得到的模型φ进行特征抽取,i为本任务中所涉及的知识,f为抽取得到的特征,

4.根据权利要求3所述的方法,其特征在于,步骤s21中,计算特征每一通道的样本均值和样本方差,其中fi,j,k表示第i类别第j通道第k样本的特征值,为样本均值,为对应的样本方差,对于新增知识,仅需记录

5.根据权利要求4所述的方法,其特征在于,步骤s22中,将s21中得到的样本均值和样本方差视作总体期望和总体方差,计算放缩的卡方分布的系数α和自由度n;在这一步骤中,将每一类别以及每一通道的特征值视为带...

【专利技术属性】
技术研发人员:童超金陆洋应润凯李思瑶梁正华申小成
申请(专利权)人:贵州省科技创新中心有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1