自适应正则化扭曲梯度下降的小样本元学习方法、系统、终端及介质技术方案

技术编号:37581956 阅读:41 留言:0更新日期:2023-05-15 07:56
本发明专利技术提供一种自适应正则化扭曲梯度下降的小样本元学习方法、系统、终端及介质,通过在小样本任务集合上结合元学习器和调制模块初始化任务学习器,并在每个任务的支持集上基于自适应学习率模块和高斯动量丢失模块更新任务学习器,再基于训练后的任务学习器对查询集样本进行识别并根据识别结果训练元学习器、调制模块及自适应学习率模块;本发明专利技术利用任务特定知识,为任务学习器自适应的生成任务特定的初始化参数和学习率张量,并且基于高斯动量丢失模块在任务学习器更新时添加正则项以缓解过拟合现象,提升了元学习模型在小样本任务的性能。的性能。的性能。

【技术实现步骤摘要】
自适应正则化扭曲梯度下降的小样本元学习方法、系统、终端及介质


[0001]本专利技术涉及机器学习小样本学习领域,特别是涉及一种自适应正则化扭曲梯度下降的小样本元学习方法、系统、终端及介质。

技术介绍

[0002]元学习(Meta

Learning,ML)是小样本学习问题的有效解决方案,它能够自动学习跨任务的知识。元学习器从每个训练任务中获取先验知识,引导学习器适应新的任务,即“learning to learn”。更具体地说,基于优化的ML可以看作是双层优化过程,由两层循环构成。在任务适应层面上(内循环),任务学习器需要用特定任务的知识快速适应当前任务;在元适应层面上(外循环),元学习器需要缓慢地学习跨任务的知识,然后将知识反馈给任务学习器。经过元训练阶段得到的模型具有良好的任务泛化特性,即模型只需简单的几个优化步骤就能快速适应目标任务,在目标任务上取得良好的分类精度。其中,一个经典的方法是模型无关元学习(Model

Agnostic Meta

Learning,MAML),在MAML中元学习器为任务学习器提供了一个具有良好任务泛化性能的、任务间共享的初始化参数。
[0003]在MAML的基础上,一些梯度预处理方法被提出,其中扭曲梯度下降方法(Warped Gradient Descent,WarpGrad)在小样本学习问题中显示了优越的效果。在任务适应过程中反向传播计算梯度时,WarpGrad向模型网络中添加了扭曲层用于对梯度进行非线性预处理,其中扭曲层的参数作为元参数的一部分与任务共享的初始化参数一起在外部循环中获得,从而能够有效捕获损和利用损失面的跨任务几何信息。此外,一些方法,如元随机梯度下降(Meta

SGD)和元曲率(Meta

Curvature,MC),通过跨任务元训练自适应地搜索学习率张量,基于此对梯度进行线性预处理,这里学习率张量就是线性梯度预处理参数。
[0004]目前基于梯度预处理的元学习方法都只关注任务共享知识,忽视了任务特定知识的利用,即在任务适应过程中没有对共享的初始化参数和梯度预处理参数进行更新以适应当前任务。此外,梯度预处理增加了参数数量,带来了显著的过拟合风险。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种自适应正则化扭曲梯度下降的小样本元学习方法、系统、终端及介质,用于解决以上现有技术问题。
[0006]为实现上述目的及其他相关目的,本专利技术提供一种自适应正则化扭曲梯度下降的小样本元学习方法,所述方法包括:基于小样本任务集合中每个任务的支持集,利用元学习器以及调制模块初始化对应各任务的任务学习器;其中,每个支持集中包括:多个支持集样本;利用自适应学习率模块和高斯动量丢失模块获取每个任务学习器的优化步长和优化方向,以对初始化的各任务学习器进行一或多次更新;利用更新后的各任务学习器对所述小样本任务集合中每个任务的查询集进行分类,并根据分类结果更新所述元学习器、调制模块以及自适应学习率模块;其中,每个查询集中包括:多个查询集样本。
[0007]于本专利技术的一实施例中,所述基于小样本任务集合中每个任务的支持集,利用元学习器以及调制模块初始化对应各任务的任务学习器包括:利用所述元学习器基于对应的任务间共享初始化参数对每个支持集的支持集样本进行分类,并计算在每个任务上的分类损失和梯度;基于所述调制模块,根据计算获得的分类损失和梯度生成每个任务的任务学习器的调制参数,以获得每个任务任务特定的初始化参数;利用各初始化参数,初始化各任务学习器。
[0008]于本专利技术的一实施例中,所述根据计算获得的分类损失和梯度生成每个任务的任务学习器的调制参数,以获得每个任务的任务特定的初始化参数包括:基于输入的在每个任务上的分类损失和梯度生成每个任务的任务学习器的调制参数;利用各调制参数对对应的任务间共享初始化参数进行调整,生成每个任务任务特定的初始化参数。
[0009]于本专利技术的一实施例中,所述利用自适应学习率模块和高斯动量丢失模块获取每个任务学习器的优化步长和优化方向,以对初始化的各任务学习器进行一或多次更新包括:利用自适应学习率模块和高斯动量丢失模块执行一或次任务学习器更新流程,以对初始化的各任务学习器进行一或多次更新;其中,所述任务学习器更新流程包括:利用初始化的各任务学习器分别对对应的支持集的支持集样本进行分类,并计算在每个任务上的分类损失和扭曲梯度;基于自适应学习率模块,根据每个任务上的分类损失和扭曲梯度生成作为各任务优化步长的自适应学习率张量,以进行各任务任务特定的线性梯度预处理;基于高斯动量丢失模块,根据每个任务上的分类损失和扭曲梯度获取动量并向动量中引入服从高斯分布的噪声,生成作为各任务优化方向的正则化后的扭曲梯度,以对各任务学习器的更新过程进行正则化;基于各任务的优化步长以及优化方向对初始化的各任务学习器进行更新。
[0010]于本专利技术的一实施例中,所述利用更新后的各任务学习器对所述小样本任务集合中每个任务的查询集进行分类,并根据分类结果更新所述元学习器、调制模块以及自适应学习率模块包括:基于更新后的各任务学习器对每个任务的查询集的查询样本进行分类并计算分类损失;基于每个任务学习器所对应的分类损失进行梯度反向传播,并更新所述元学习器、调制模块、自适应学习率模块。
[0011]于本专利技术的一实施例中,所述基于每个任务学习器所对应的分类损失进行梯度反向传播,并更新所述元学习器、调制模块、自适应学习率模块包括:基于每个任务学习器所对应的分类损失,计算用于元模型更新的元损失;基于所述元损失计算用于元参数更新的元梯度,并根据SGD对元学习器的元学习器参数、调制模块的调制模块参数以及自适应学习率模块的自适应学习率模块参数进行更新。
[0012]于本专利技术的一实施例中,所述任务学习器以及元学习器分别采用4层卷积网络,所述调制模块采用多层感知机以及所述自适应学习率模块采用LSTM网络。
[0013]为实现上述目的及其他相关目的,本专利技术提供一种自适应正则化扭曲梯度下降的小样本元学习系统,所述系统包括:所述系统包括:小样本任务集合模块、每个任务对应的任务学习器、元学习器、调制模块、自适应学习率模块以及高斯动量丢失模块;其中,所述小样本任务集合模块,用于储存小样本任务集合中每个任务的支持集以及查询集;其中,每个支持集用于训练每个任务的任务学习器;每个查询集用于训练所述元学习器、调制模块和自适应学习率模块;所述元学习器,用于学习提取小样本任务集合中支持集的支持集样本
的样本特征并分类,并将其对应的元学习器参数分别作为各任务学习器的共享初始化参数;所述调制模块,用于根据所述元学习器在每个任务的支持集上的分类结果获取调制参数,以生成更适合每个任务任务特定的任务学习器初始化参数;每个任务学习器,用于对输入的对应任务的样本进行特征提取和分类;所述自适应学习率模块,用于捕获每个任务上的局部损失面信息,并生成作为各任务优化步长的自适应学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应正则化扭曲梯度下降的小样本元学习方法,其特征在于,所述方法包括:基于小样本任务集合中每个任务的支持集,利用元学习器以及调制模块初始化对应各任务的任务学习器;其中,每个支持集中包括:多个支持集样本;利用自适应学习率模块和高斯动量丢失模块获取每个任务学习器的优化步长和优化方向,以对初始化的各任务学习器进行一或多次更新;利用更新后的各任务学习器对所述小样本任务集合中每个任务的查询集进行分类,并根据分类结果更新所述元学习器、调制模块以及自适应学习率模块;其中,每个查询集中包括:多个查询集样本。2.根据权利要求1中所述的自适应正则化扭曲梯度下降的小样本元学习方法,其特征在于,所述基于小样本任务集合中每个任务的支持集,利用元学习器以及调制模块初始化对应各任务的任务学习器包括:利用所述元学习器基于对应的任务间共享初始化参数对每个支持集的支持集样本进行分类,并计算在每个任务上的分类损失和梯度;基于所述调制模块,根据计算获得的分类损失和梯度生成每个任务的任务学习器的调制参数,以获得每个任务任务特定的初始化参数;利用各初始化参数,初始化各任务学习器。3.根据权利要求2中所述的自适应正则化扭曲梯度下降的小样本元学习方法,其特征在于,所述根据计算获得的分类损失和梯度生成每个任务的任务学习器的调制参数,以获得每个任务的任务特定的初始化参数包括:基于输入的在每个任务上的分类损失和梯度生成每个任务的任务学习器的调制参数;利用各调制参数对对应的任务间共享初始化参数进行调整,生成每个任务任务特定的初始化参数。4.根据权利要求1中所述的自适应正则化扭曲梯度下降的小样本元学习方法,其特征在于,所述利用自适应学习率模块和高斯动量丢失模块获取每个任务学习器的优化步长和优化方向,以对初始化的各任务学习器进行一或多次更新包括:利用自适应学习率模块和高斯动量丢失模块执行一或次任务学习器更新流程,以对初始化的各任务学习器进行一或多次更新;其中,所述任务学习器更新流程包括:利用初始化的各任务学习器分别对对应任务的支持集的支持集样本进行分类,并计算在每个任务上的分类损失和扭曲梯度;基于自适应学习率模块,根据每个任务上的分类损失和扭曲梯度生成作为各任务优化步长的自适应学习率张量,以进行各任务任务特定的线性梯度预处理;基于高斯动量丢失模块,根据每个任务上的分类损失和扭曲梯度获取动量并向动量中引入服从高斯分布的噪声,生成作为各任务优化方向的正则化后的扭曲梯度,以对各任务学习器的更新过程进行正则化;基于各任务的优化步长以及优化方向对初始化的各任务学习器进行更新。5.根据权利要求1中所述的自适应正则化扭曲梯度下降的小样本元学习方法,其特征在于,所述利用更新后的各任务学习器对所述小样本任务集合中每个任务的查询集进行分类,...

【专利技术属性】
技术研发人员:黄俊饶淑珍
申请(专利权)人:中国科学院上海高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1