一种基于元学习的小样本学习方法、装置和电子设备制造方法及图纸

技术编号:33437548 阅读:15 留言:0更新日期:2022-05-19 00:25
本发明专利技术公开了一种基于元学习的小样本学习方法、装置和电子设备。本发明专利技术的方法包括:构建元学习的训练任务集,所述训练任务集包括多个训练任务;初始化元网络的模型参数和超参数;循环更新元网络的模型参数和超参数,其中利用多个训练任务更新元网络的模型参数,利用更新后的模型参数和事先构建的优化网络优化元网络的超参数;在满足预设条件时,停止优化元网络,将停止优化时的模型参数和超参数作为元初始参数,在新的任务中基于所述元初始参数对元网络的模型参数进行训练,利用训练好的元网络进行识别与发现。本发明专利技术的技术方案通过分别优化元网络的模型参数和超参数,可以显著提高元网络的泛化能力。高元网络的泛化能力。高元网络的泛化能力。

【技术实现步骤摘要】
一种基于元学习的小样本学习方法、装置和电子设备


[0001]本专利技术涉及机器学习
,具体涉及一种基于元学习的小样本学习方法、装置和电子设备。

技术介绍

[0002]机器学习、特别是深度学习自兴起以来已成功应用于计算机视觉、自然语言处理、数据挖掘等多个领域。其之所以能在这些领域取得良好的表现的一个重要因素在于,在这些领域中易于获取海量标记数据。然而,由于诸如隐私、安全性或数据的高标签成本等一系列因素,许多现实的应用场景(例如在医学,军事和金融领域)没有条件获取足够数量的带标签的训练样本。因此,如何使得一个机器学习或深度学习系统能够从非常少量的样本中高效地学习和推广其认知能力,成为许多机器学习或深度学习研究人员迫切期待实现的蓝图。
[0003]其中小样本学习(又称为few

shot learning,简记为FSL)预计不会依赖大规模的训练样本,从而避免了某些特定应用中数据准备的高昂成本,且可以为一项新出现的、可采集样本很少的任务实现低成本,快速的模型部署。
[0004]目前的小样本学习方法,一般是通过对元网络的模型参数进行训练,提高元网络的泛化能力。但实际应用中,影响元网络的泛化能力的参数不但包括模型参数,还包括超参数。因此,现有技术中只对模型参数进行优化,只能有限的提高元网络的泛化能力的。

技术实现思路

[0005]有鉴于此,本专利技术的主要目的在于提供了一种基于元学习的小样本学习方法、装置和电子设备,用于提高元网络的泛化能力。
[0006]依据本专利技术的第一方面,提供了一种基于元学习的小样本学习方法,包括:
[0007]构建元学习的训练任务集,所述训练任务集包括多个训练任务;
[0008]初始化元网络的模型参数和超参数;
[0009]循环更新元网络的模型参数和超参数,其中利用多个训练任务更新元网络的模型参数,利用更新后的模型参数和事先构建的优化网络优化元网络的超参数;
[0010]在满足预设条件时,停止优化元网络,将停止优化时的模型参数和超参数作为元初始参数,在新的任务中基于所述元初始参数对元网络的模型参数进行训练,利用训练好的元网络进行识别与发现。
[0011]依据本专利技术的第二方面,提供了一种基于元学习的小样本学习装置,包括:
[0012]数据构建单元,用于构建元学习的训练任务集,所述训练任务集包括多个训练任务;
[0013]初始化单元,用于初始化元网络的模型参数和超参数;
[0014]更新单元,用于循环更新元网络的模型参数和超参数,其中利用多个训练任务更新元网络的模型参数,利用更新后的模型参数和事先构建的优化网络优化元网络的超参
数;
[0015]停止更新单元,用于在满足预设条件时,停止优化元网络,将停止优化时的模型参数和超参数作为元初始参数,在新的任务中基于所述元初始参数对元网络的模型参数进行训练,利用训练好的元网络进行识别与发现。
[0016]依据本专利技术的第三方面,提供了一种电子设备,包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述基于元学习的小样本学习方法。
[0017]依据本专利技术的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述基于元学习的小样本学习方法。
[0018]本专利技术采用的上述至少一个技术方案能够达到以下有益效果:本专利技术实施例的基于元学习的小样本学习方法、装置和电子设备是从大量训练任务中采用不同的学习方法学习元网络的模型参数和超参数,使得得到的元初始参数能够在面向新的机器学习任务时,在小样本条件下也能快速收敛到一个较优的解,提高了模型的泛化能力。
[0019]且由于专利技术本实施例的元网络是基于大量的训练任务,所以其能够在新的任务上通过少量的迭代来产生泛化的性能,即本实施例的方法训练了一个易于微调的网络模型。
[0020]另外,由于专利技术本实施例并不会对元网络的形式做任何限制,所以可适配到任何机器学习问题,如分类问题、回归问题和强化学习问题等。
附图说明
[0021]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0022]图1示出了根据本专利技术一个实施例的一种基于元学习的小样本学习方法流程图;
[0023]图2示出了根据本专利技术一个实施例的利用LSTM更新元网络超参数的示意图;
[0024]图3示出了根据本专利技术一个实施例的一种基于元学习的小样本学习装置的结构示意图;
[0025]图4示出了根据本专利技术一个实施例的电子设备的结构示意图。
具体实施方式
[0026]下面将参照附图更详细地描述本专利技术的示例性实施例。提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。
[0027]本专利技术实施例的基本构思是:从大量训练任务中采用不同的学习方法学习元网络的模型参数和超参数,这里模型参数和超参数构成元网络的元初始参数,该元初始参数可使得新的机器学习任务在小样本条件下也能快速收敛到一个较优的解。
[0028]图1示出了根据本专利技术一个实施例的一种基于元学习的小样本学习方法流程图,如图1所示,本实施例的方法至少包括步骤S110

步骤S140:
[0029]步骤S110,构建元学习的训练任务集,所述训练任务集包括多个训练任务。
[0030]与传统的机器学习方法不同的是,本实施例的小样本学习方法的目的是在任务级别上学习,而不是在样本数据上学习。因此,本实施例需要构建训练任务集,为了保证元网络的泛化能力,本实施例的训练任务集包括多个训练任务,每个训练任务包括两组数据集,即每个训练任务包括第一数据集和第二数据集,第一数据集和第二数据集均包括支持集(又称为Support Set)和查询集(又称为Query Set),第一数据集用于更新元网络的模型参数,第二数据集用于优化元网络的超参数。
[0031]步骤S120,初始化元网络的模型参数和超参数。
[0032]本实施例中的元网络包括人工神经网络,人工神经网络是一种模仿动物神经网络行为特征、进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。
[0033]本实施例的元网络包括两类参数:一类需要从数据中学习和估计得到,称为模型参数(又称为Parameter),该类模型参数即为模型本身的参数。比如,卷积层大小、卷积核参数都是模型参数。还有一类则是机器学习算法中的调优参数(又称为Tuning Para本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元学习的小样本学习方法,其特征在于,包括:构建元学习的训练任务集,所述训练任务集包括多个训练任务;初始化元网络的模型参数和超参数;循环更新元网络的模型参数和超参数,其中利用多个训练任务更新元网络的模型参数,利用更新后的模型参数和事先构建的优化网络优化元网络的超参数;在满足预设条件时,停止优化元网络,将停止优化时的模型参数和超参数作为元初始参数,在新的任务中基于所述元初始参数对元网络的模型参数进行训练,利用训练好的元网络进行识别与发现。2.根据权利要求1所述的方法,其特征在于,每个训练任务包括第一数据集,第一数据集包括第一支持集和第一查询集,通过多个训练任务更新元网络的模型参数,包括:对训练任务集T中的任一训练任务T
i
执行以下步骤:利用元网络对训练任务T
i
的第一支持集中的支持样本数据进行分类,得到分类结果;利用元网络计算训练任务T
i
的第一查询集中的查询样本数据与该训练任务的支持样本数据的各个分类结果之间的欧氏距离;将训练任务T
i
的所述欧式距离作为优化目标,通过SGD优化算法对所述元网络的模型参数进行更新,得到对应于训练任务T
i
的更新后的模型参数。3.根据权利要求2所述的方法,其特征在于,将训练任务T
i
的所述欧式距离作为优化目标,通过SGD优化算法对所述元网络的模型参数进行更新,得到对应于训练任务T
i
的更新后的模型参数,包括:获取元网络在所述优化目标下的损失函数和梯度;计算训练任务T
i
的学习率、所述梯度和所述损失函数三者的乘积;将元网络当下的模型参数与所述三者的乘积的差值作为更新后的模型参数。4.根据权利要求3所述的方法,其特征在于,利用更新后的模型参数和事先构建的优化网络优化元网络的超参数,包括:利用更新后的模型参数更新优化网络的损失函数;将元网络的超参数作为优化网络的输入,通过优化网络对超参数进行优化。5.根据权利要求4所述的方法,其特征在于,每个训练任务还包括第二数据集,第二数据集包括第二支持集和第二查询集,利用更新后的模型参数更新优化网络的损失函数,包括:利用更新后的模型参数更新元网络的模型参数;利用元网络对训练任务T
...

【专利技术属性】
技术研发人员:楼财义周华吉骆振兴郑仕链
申请(专利权)人:中国电子科技集团公司第三十六研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1